【程序员常识】为什么会有Unicode，UTF-8以及ASCII等编码？（中文注释的坏处及中文乱码的原因）时间2021/12/6

Engineer-Stephen_Lin

于 2021-12-06 17:04:43 发布

阅读量738

点赞数 2

分类专栏：程序员常识文章标签： python c语言 c++

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43234123/article/details/121749831

版权

程序员常识专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言

在这里插入图片描述

最近在学python，突然发现了这个东西。

# -*- coding: utf-8 -*-

请添加图片描述
原来这东西是为了告诉Python解释器，按照UTF-8编码读取源代码，否则，你在源代码中写的中文输出可能会有乱码。

突然想起了有些时候我以前喜欢写一些中文注释，但是当我换了别的代码编辑器时，我辛辛苦苦写的注释就变成了一团乱码。

请添加图片描述

然后我就从网上寻找解决方法，反正都是具体的解决方法，如下图所示，反正改完也是蒙蒙的。
在这里插入图片描述

所以我就产生好奇，看完编码的前世今生后，我终于晓得原来出现乱码的原因就是因为编码类型不同，翻译出来就飞了，变成所谓的乱码，只要选择同样的编码类型就行了。

这时，作为中文注释爱好者的我就想问了：为啥要有这么多的编码类？假如只有一种，那么就没有那么多烦恼了。
请添加图片描述

回答

首先要理解下面这些概念。
在三者中，ASCII是最先有的编码，它能够使用 32 到 127 之间的数字来表示每个字符，它的出现是因为当时的计算机都是8 位字节，且基本都是英语（懂得都懂），所以他们没有考虑到别的语言。

后面计算机开始发展，别的语言也需要表示啊，所有不同的国家就用后面128到255位各自代表了自己的语言，例如，在某些 PC 上，字符代码 130 将显示为 é，但在以色列销售的计算机上，它是希伯来字母 Gimel（ג)，总结来说就是因为编码的规则不同，同样的字符代码在不同国家的机器上被翻译成了不同意思，也就成了乱码。

所以后面就有人提出了Unicode这种编码，也就是统一码的意思，大家都用同一种编码形式，那么这样大家就有了同样的语言，就不会出现乱码了。

而UTF-8呢，其实就是Unicode的一种编码实现方式，它的特点是，可变长的编码方式。

UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间。

趣闻

还有一个趣闻，当时Unicode刚出来的几年里，一直被大多数人忽略，后面推出了UTF-8才慢慢被接受并推广。
大家都知道现在的ASCII编码几乎是可以和UTF-8通用的，但是Unicode最开始推出时，他们两者并不通用，所以要使用英语，也需要和使用其他语言一样去查找Unicode的字母表。

请添加图片描述

Engineer-Stephen_Lin

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【程序员常识】为什么会有Unicode，UTF-8以及ASCII等编码？（中文注释的坏处及中文乱码的原因）时间2021/12/6

字符编码与中文乱码的爱恨情仇。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。