一篇文章讲清楚字符编码

最新推荐文章于 2021-11-16 07:37:17 发布

chengnanlangzi

最新推荐文章于 2021-11-16 07:37:17 发布

阅读量178

点赞数

文章标签： unicode 乱码

本文链接：https://blog.csdn.net/chengnanlangzi/article/details/107017418

版权

python执行程序的三个阶段

第一阶段：python解释器启动并加载到内存中；

第二阶段：python解释器读取文件内容到内存中（该阶段解释器的作用就相当于文本编辑器）；

第三阶段：python解释器解释执行文件内容。

字符编码出现问题的情形可能有以下两种

情形一：在保存文件时（将内存中的内容保存到硬盘时）

比如用notepad++以Shift-JIS为编码方式将下面的内容保存到硬盘

你好
こんにちは

再次打开发现中文乱码了，问题就是出在保存文件的阶段（内存中的unicode转换为shift-JIS形式的bytes），因为shift-JIS编码并不能编码中文，因此中文在保存的时候就乱码了。

情形二：python执行程序的第二阶段可能会出现解码问题

比如我以GBK为编码方式在文件中写了下面的代码

name = '阿明'

然后我执行这个文件，发现会报下面的迷之错误：

SyntaxError: Non-UTF-8 code starting with '\xb0' in file C:/Users/peterpan/PycharmProjects/The_Road_of_python/ts.py on line 1, but no encoding declared;

我是用GBK编码的，这关utf-8什么事情？

python解释器在将文件内容读到内存时，需要经过解码（decode），也就是将bytes形式的二进制转化为unicode，而python3默认的解码方式为utf-8，这就造成编解码方式不一致。

切记，用什么方式编码的就要以相同的方式解码！！！

解决方案，告诉python解释器不要以默认的方式解码了。可以给文件加文件头，告诉解释器以GBK为解码方式进行解码。

# coding:gbk
name = '阿明'

这样再运行这个文件就不会报错了。

疑问：在python3的内存中，所有的内容都是unicode编码吗？

答案是：不一定，因为在程序执行的过程中可以人为地指定编码。

我们都知道在python定义一个变量是需要开辟新的内存空间的，这个变量在存到内存的时候，默认是unicode编码，我们可以将这个unicode编码的字符转换为任意编码类型的bytes。

# coding:gbk
name = '阿明'
print(name.encode('utf-8'))
print(name.encode('gbk'))

执行结果如下：

b'\xe9\x98\xbf\xe6\x98\x8e'
b'\xb0\xa2\xc3\xf7'

这也证明了一个中文字符在utf-8编码中占3个字节，而在gbk编码中占用2个字节。

chengnanlangzi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一篇文章讲清楚字符编码

python执行程序的三个阶段第一阶段：python解释器启动并加载到内存中；第二阶段：python解释器读取文件内容到内存中（该阶段解释器的作用就相当于文本编辑器）；第三阶段：python解释器解释执行文件内容。字符编码出现问题的情形可能有以下两种情形一：在保存文件时（将内存中的内容保存到硬盘时）比如用notepad++以Shift-JIS为编码方式将下面的内容保存到硬盘你好こんにちは再次打开发现中文乱码了，问题就是出在保存文件的阶段（内存中的unicode转换为.
复制链接

扫一扫