python执行程序的三个阶段
第一阶段:python解释器启动并加载到内存中;
第二阶段:python解释器读取文件内容到内存中(该阶段解释器的作用就相当于文本编辑器);
第三阶段:python解释器解释执行文件内容。
字符编码出现问题的情形可能有以下两种
情形一:在保存文件时(将内存中的内容保存到硬盘时)
比如用notepad++以Shift-JIS为编码方式将下面的内容保存到硬盘
你好
こんにちは
再次打开发现中文乱码了,问题就是出在保存文件的阶段(内存中的unicode转换为shift-JIS形式的bytes),因为shift-JIS编码并不能编码中文,因此中文在保存的时候就乱码了。
情形二:python执行程序的第二阶段可能会出现解码问题
比如我以GBK为编码方式在文件中写了下面的代码
name = '阿明'
然后我执行这个文件,发现会报下面的迷之错误:
SyntaxError: Non-UTF-8 code starting with '\xb0' in file C:/Users/peterpan/PycharmProjects/The_Road_of_python/ts.py on line 1, but no encoding declared;
我是用GBK编码的,这关utf-8什么事情?
python解释器在将文件内容读到内存时,需要经过解码(decode),也就是将bytes形式的二进制转化为unicode,而python3默认的解码方式为utf-8,这就造成编解码方式不一致。
切记,用什么方式编码的就要以相同的方式解码!!!
解决方案,告诉python解释器不要以默认的方式解码了。可以给文件加文件头,告诉解释器以GBK为解码方式进行解码。
# coding:gbk
name = '阿明'
这样再运行这个文件就不会报错了。
疑问:在python3的内存中,所有的内容都是unicode编码吗?
答案是:不一定,因为在程序执行的过程中可以人为地指定编码。
我们都知道在python定义一个变量是需要开辟新的内存空间的,这个变量在存到内存的时候,默认是unicode编码,我们可以将这个unicode编码的字符转换为任意编码类型的bytes。
# coding:gbk
name = '阿明'
print(name.encode('utf-8'))
print(name.encode('gbk'))
执行结果如下:
b'\xe9\x98\xbf\xe6\x98\x8e'
b'\xb0\xa2\xc3\xf7'
这也证明了一个中文字符在utf-8编码中占3个字节,而在gbk编码中占用2个字节。