python的平台编码、默认编码、解码直接的联系的一些个人理解

python的平台编码、默认编码、解码直接的联系的一些个人理解


以下只是个人的一些个人悟出的一些想法,不能确定一定是准确的,如果有理解错误的地方,希望有人帮忙指正


1、运行decode指定编码A的函数时(decode(“A”)),如果字符串不是“A”编码格式的话,先用sys模块下默认编码B解码成unicode,然后再编码成编码“B”的格式。然后再用decode去解码;如果字符串是“A”编码格式的话,就直接decode 解码


2、运行encode成指定的编码“A"时。先用sys模块下默认编码B解码成unicode,然后再用encode函数编码成指定的编码“A”。




举例如下:


例子1 :当前sys模块的默认是utf-8格式,但dos平台是gbk编码,





>>> sys.setdefaultencoding("utf-8")
>>> u"中国".decode("utf-8").encode("gbk")
'\xd6\xd0\xb9\xfa'
>>> u"中国".decode("utf-8").encode("utf-8")
'\xe4\xb8\xad\xe5\x9b\xbd'
>>> (u"中国").decode("utf-8")
u'\u4e2d\u56fd'
>>> u"中国".decode("gbk")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'gbk' codec can't decode bytes in position 2-3: illegal mult
ibyte sequence
>>> "中国".decode("utf-8")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "D:\Python27\lib\encodings\utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xd6 in position 0: invalid c
ontinuation byte
>>> "中国".encode("gbk")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'utf8' codec can't decode byte 0xd6 in position 0: invalid c
ontinuation byte
>>> "中国".decode("gbk")
u'\u4e2d\u56fd'
>>>


以上运行结果,个人理解是:
  (1)前面不报错的原因u"中国"是unicode编码,然后先用sys模块默认的utf-8编码成utf-8格式,然后decode就没有问题了
 (2)u"中国".decode("gbk")报错原因:sys模块默认的utf-8编码成utf-8格式,然后用gbk去解码就报错了
 (3) "中国".decode("utf-8")报错的原因:dos平台的默认编码格式是gbk,因此无法用sys模块默认的utf-8格式去解码。所以报错
 (4)"中国".decode("gbk")运行正确,是因为dos平台就是gbk编码,以此“中国”是gbk编码。所以直接可以用decode("gbk")去解码




例子2:sys模块的默认编码格式和dos环境的默认编码格式都是"gbk"情况



>>> reload(sys)
<module 'sys' (built-in)>
>>> sys.setdefaultencoding("gbk")
>>> u"中国".decode("utf-8")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "D:\Python27\lib\encodings\utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xd6 in position 0: invalid
ontinuation byte
>>> u"中国".decode("gbk")
u'\u4e2d\u56fd'




以上运行结果,个人理解是:
(1)u"中国".decode("utf-8") 报错原因:用sys默认的gbk把u"中国"编码成了gbk格式,因此无法用utf8区解码
(2)u"中国".decode("gbk")不报错:因为用sys默认的gbk把u"中国"编码成了gbk格式
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值