一篇文章讲清楚字符编码

python执行程序的三个阶段

第一阶段:python解释器启动并加载到内存中;

第二阶段:python解释器读取文件内容到内存中(该阶段解释器的作用就相当于文本编辑器);

第三阶段:python解释器解释执行文件内容。

 

字符编码出现问题的情形可能有以下两种

情形一:在保存文件时(将内存中的内容保存到硬盘时)

比如用notepad++以Shift-JIS为编码方式将下面的内容保存到硬盘

你好
こんにちは

再次打开发现中文乱码了,问题就是出在保存文件的阶段(内存中的unicode转换为shift-JIS形式的bytes),因为shift-JIS编码并不能编码中文,因此中文在保存的时候就乱码了。

 

情形二:python执行程序的第二阶段可能会出现解码问题

比如我以GBK为编码方式在文件中写了下面的代码

name = '阿明'

然后我执行这个文件,发现会报下面的迷之错误:

SyntaxError: Non-UTF-8 code starting with '\xb0' in file C:/Users/peterpan/PycharmProjects/The_Road_of_python/ts.py on line 1, but no encoding declared;

我是用GBK编码的,这关utf-8什么事情?

python解释器在将文件内容读到内存时,需要经过解码(decode),也就是将bytes形式的二进制转化为unicode,而python3默认的解码方式为utf-8,这就造成编解码方式不一致。

切记,用什么方式编码的就要以相同的方式解码!!!

解决方案,告诉python解释器不要以默认的方式解码了。可以给文件加文件头,告诉解释器以GBK为解码方式进行解码。

# coding:gbk
name = '阿明'

这样再运行这个文件就不会报错了。

 

疑问:在python3的内存中,所有的内容都是unicode编码吗?

答案是:不一定,因为在程序执行的过程中可以人为地指定编码。

我们都知道在python定义一个变量是需要开辟新的内存空间的,这个变量在存到内存的时候,默认是unicode编码,我们可以将这个unicode编码的字符转换为任意编码类型的bytes。

# coding:gbk
name = '阿明'
print(name.encode('utf-8'))
print(name.encode('gbk'))

执行结果如下:

b'\xe9\x98\xbf\xe6\x98\x8e'
b'\xb0\xa2\xc3\xf7'

这也证明了一个中文字符在utf-8编码中占3个字节,而在gbk编码中占用2个字节。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值