python不同电脑编码报错_Python编码问题详解 -电脑资料

最新推荐文章于 2022-03-06 01:43:41 发布

庞九林

最新推荐文章于 2022-03-06 01:43:41 发布

阅读量267

点赞数

文章标签： python不同电脑编码报错

本文链接：https://blog.csdn.net/weixin_28744613/article/details/113968126

版权

继上一篇文章字符集和编码详解总结了常见字符编码后，这篇文章会对python中常见的编码问题进行分析和总结，

1.Python编码基础

1.1 str和unicode

python中有两种数据模型来支持字符串这种数据类型，str和unicode，它们的基类都是basestring。比如s = "中文"就是str类型的字符串，而u=u"中文"就是一个unicode类型的字符串。unicode是由str类型的字符串解码后得到，unicode也可以编码成str类型。即

str --> decode -->unicode

unicode --> encode --> str

严格来说，str也许应该叫做字节串，因为对于UTF-8编码的str类型"中文"，使用len()函数得到的结果是6，因为UTF-8编码的str类型“中文”实际是"\xe4\xb8\xad\xe6\x96\x87"。而对于unicode类型u“中文”(实际是u"\u4e2d\u6587")，使用len()函数得到结果是2.

1.2 头部编码声明

在python源代码文件中如果有用到非ascii字符，比如中文，那么需要在源码文件头部声明源代码字符编码，格式如下：

#-*- coding: utf-8 -*-

这个格式看起比较复杂，其实python只检查#、coding，编码等字符串，可以简写成#coding:utf-8，甚至还可以写成#coding:u8。

2.Python2.x常见编码问题

2.1 头部编码声明和文件编码问题

文件头部编码声明决定了python解析源码中的str的编码选择方式，比如头部声明的是utf-8编码，则代码中s="中文"python就会按照utf-8编码格式来解析，通过repr(s)可以看到字符编码是"\xe4\xb8\xad\xe6\x96\x87"，如果头部声明的编码是gbk编码，则python会对s采用gbk编码解析，结果是"\xd6\xd0\xce\xc4"。

需要注意的是，文件本身的编码要跟文件头部声明编码一致，不然就会出现问题。文件本身的编码在Linux下面可以在vim下用命令set fenc来查看。如果文件本身编码是gbk，而源码文件头部声明的编码是utf-8，这样如果源码中有中文就会有问题了，因为本身中文str存储是按照gbk编码来的，而python在解析str的时候又以为是utf-8编码，这样就会报SyntaxError: (unicode error) 'utf8' codec can't decode byte错误，Python编码问题详解》(https://www.unjs.com)。

2.2 默认编码问题

下面看个python默认编码导致的问题：

#coding: utf-8

u = u"中文"

print repr(u) # u'\u4e2d\u6587'

s = "中文"

print repr(s) # '\xe4\xb8\xad\xe6\x96\x87'

u2 = s.decode("utf-8")

print repr(u2) # u'\u4e2d\u6587'

#s2 = u.decode("utf-8") #编码错误

#u2 = s.encode("utf-8") #解码错误

注意实例中注释掉的2行代码，对于unicode最好不要直接调用decode，str最好不要直接调用encode方法。因为如果是直接调用，则相当于u.encode(default_encoding).decode("utf-8")，default_encoding是python的unicode实现中用的默认编码，即sys.getdefaultencoding()得到的编码,如果你没有设置过，那么默认编码就是ascii，如果你的unicode本身超出了ascii编码范围就会报错。同理，如果对str直接调用encode方法，那么默认会先对str进行解码，即s.decode(default_encoding).encode("utf-8"),如果str本身是中文，而default_encoding是ascii的话，解码就会出错，从而导致上面这两行会分别报UnicodeEncodeError: 'ascii' codec can't encode characters in position...错误和UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position...错误。

上面例子中注释掉的两行代码如果执行就会报错，当然，如果本身str或者unicode都在ascii编码范围，就没有问题。比如s = "abc"; s.encode("utf-8")就不会有问题，语句执行后会返回一个跟s的id不同的str。