回顾乱码(by quqi99)

**作者:张华 发表于:2016-12-07
版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本版权声明
( http://blog.csdn.net/quqi99 )**

python3中的默认编码unicode(UCS-2编码)采用2个字节表示全世界字符, 因为计算机内存只能存储二进制数据,因此需要对每一个unicode字符进行编码(即采用一串二进制数据来表示特定的字符)。utf-8是一种采用1到3个字节进行编码的格式,转换规则是:
UCS-2这符(16进制) UTF-8字节流(2进制)

000-007F           0xxxxxxx
0080-07FF          110xxxxx 10xxxxxx
0800-FFFF          1110xxxx 10xxxxxx 10xxxxxx

例如:中文字符”汉”的unicode(2个字节)字符编码的16进制数据为0x6C49(01101100 01001001),它在0800-FFFF之间所以套用的模板为’1110xxxx 10xxxxxx 10xxxxxx’, 这样’01101100 01001001’为’0110 110001 001001’,套用模板后为’11100110 10110001 10001001’即’E6 B1 89’.

  • Python3中字符串str(“”)默认为unicode编码,字节流可以使用byte(b”“)
  • Python2中字符串str(“”)默认为字节流, unicode流可以使用unicode(u”“)

Python3中字符串默认为unicde编码,Python中和编码相关的两个函数为decode和encode:

  • encode,unicode字符串 -> 某个编码方式的字节
  • decode, 某个编码方式的字节流 -> unicode字符串

这时候可能有人会问:那么对于一个str类型(在Python2中已经是字节数组)再应用decode是什么概念呢? 这时候其实str.encode(e)是和unicode(str).encode(e)是一样的,python底层做的时候也是确实这么做的。
所以对于Python2:

str.decode('中文编码').encode('utf-8')
str.decode('utf-8').encode('中文编码')
unicode("中文字符").encode("utf-8")

编码不一致就会报错:

>>> u'汉'
u'\u6c49'
>>> u'汉'.encode('utf8')
'\xe6\xb1\x89'
>>> u'汉'.encode('utf8').decode('utf8')
u'\u6c49'
>>> u'汉'.encode('utf8').decode('gbk')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'gbk' codec can't decode byte 0x89 in position 2: incomplete multibyte sequence

#sys.stdout = codecs.getwriter('utf-8')(sys.stdout)
>>> print sys.stdin.encoding
UTF-8
>>> str('')
'\xe6\xb1\x89'
>>> str('').decode('gbk')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'gbk' codec can't decode byte 0x89 in position 2: incomplete multibyte sequence
>>> str('汉').decode('utf8')
u'\u6c49'
>>> print str('汉').decode('utf8')
汉
>>> print sys.getdefaultencoding()
ascii
>>> sys.setdefaultencoding('UTF8')
>>> print sys.getdefaultencoding()
UTF8

#How to change file's encoding
#!/usr/bin/env python
# -*- coding: gbk -*-
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

quqi99

你的鼓励就是我创造的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值