python的平台编码、默认编码、解码直接的联系的一些个人理解

最新推荐文章于 2023-08-01 17:00:42 发布

热情的蘑菇

最新推荐文章于 2023-08-01 17:00:42 发布

阅读量632

点赞数

分类专栏： python学习笔记

本文链接：https://blog.csdn.net/sunjinjuan/article/details/79101692

版权

python学习笔记专栏收录该内容

15 篇文章 6 订阅

订阅专栏

python的平台编码、默认编码、解码直接的联系的一些个人理解

以下只是个人的一些个人悟出的一些想法，不能确定一定是准确的，如果有理解错误的地方，希望有人帮忙指正

1、运行decode指定编码A的函数时（decode（“A”）），如果字符串不是“A”编码格式的话，先用sys模块下默认编码B解码成unicode，然后再编码成编码“B”的格式。然后再用decode去解码；如果字符串是“A”编码格式的话，就直接decode 解码

2、运行encode成指定的编码“A"时。先用sys模块下默认编码B解码成unicode，然后再用encode函数编码成指定的编码“A”。

举例如下：

例子1 ：当前sys模块的默认是utf-8格式，但dos平台是gbk编码，

>>> sys.setdefaultencoding("utf-8")
>>> u"中国".decode("utf-8").encode("gbk")
'\xd6\xd0\xb9\xfa'
>>> u"中国".decode("utf-8").encode("utf-8")
'\xe4\xb8\xad\xe5\x9b\xbd'
>>> (u"中国").decode("utf-8")
u'\u4e2d\u56fd'
>>> u"中国".decode("gbk")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'gbk' codec can't decode bytes in position 2-3: illegal mult
ibyte sequence
>>> "中国".decode("utf-8")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "D:\Python27\lib\encodings\utf_8.py", line 16, in decode
return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xd6 in position 0: invalid c
ontinuation byte
>>> "中国".encode("gbk")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'utf8' codec can't decode byte 0xd6 in position 0: invalid c
ontinuation byte
>>> "中国".decode("gbk")
u'\u4e2d\u56fd'
>>>

以上运行结果，个人理解是：
（1）前面不报错的原因u"中国"是unicode编码，然后先用sys模块默认的utf-8编码成utf-8格式，然后decode就没有问题了
（2）u"中国".decode("gbk")报错原因：sys模块默认的utf-8编码成utf-8格式，然后用gbk去解码就报错了
（3） "中国".decode("utf-8")报错的原因：dos平台的默认编码格式是gbk，因此无法用sys模块默认的utf-8格式去解码。所以报错
（4）"中国".decode("gbk")运行正确，是因为dos平台就是gbk编码，以此“中国”是gbk编码。所以直接可以用decode("gbk")去解码

例子2：sys模块的默认编码格式和dos环境的默认编码格式都是"gbk"情况

>>> reload(sys)
<module 'sys' (built-in)>
>>> sys.setdefaultencoding("gbk")
>>> u"中国".decode("utf-8")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "D:\Python27\lib\encodings\utf_8.py", line 16, in decode
return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xd6 in position 0: invalid
ontinuation byte
>>> u"中国".decode("gbk")
u'\u4e2d\u56fd'

以上运行结果，个人理解是：
（1）u"中国".decode("utf-8") 报错原因：用sys默认的gbk把u"中国"编码成了gbk格式，因此无法用utf8区解码
（2）u"中国".decode("gbk")不报错：因为用sys默认的gbk把u"中国"编码成了gbk格式

热情的蘑菇

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python的平台编码、默认编码、解码直接的联系的一些个人理解

python的平台编码、默认编码、解码直接的联系的一些个人理解以下只是个人的一些个人悟出的一些想法，不能确定一定是准确的，如果有理解错误的地方，希望有人帮忙指正1、运行decode指定编码A的函数时（decode（“A”）），如果字符串不是“A”编码格式的话，先用sys模块下默认编码B解码成unicode，然后再编码成指定的编码“A”。然后再用decode去解码；如果字符串是“A”编码格式的话，就
复制链接

扫一扫