回顾乱码(by quqi99)

原创 2016年12月07日 18:08:56

**作者:张华 发表于:2016-12-07
版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本版权声明
( http://blog.csdn.net/quqi99 )**

python3中的默认编码unicode(UCS-2编码)采用2个字节表示全世界字符, 因为计算机内存只能存储二进制数据,因此需要对每一个unicode字符进行编码(即采用一串二进制数据来表示特定的字符)。utf-8是一种采用1到3个字节进行编码的格式,转换规则是:
UCS-2这符(16进制) UTF-8字节流(2进制)

000-007F           0xxxxxxx
0080-07FF          110xxxxx 10xxxxxx
0800-FFFF          1110xxxx 10xxxxxx 10xxxxxx

例如:中文字符”汉”的unicode(2个字节)字符编码的16进制数据为0x6C49(01101100 01001001),它在0800-FFFF之间所以套用的模板为’1110xxxx 10xxxxxx 10xxxxxx’, 这样’01101100 01001001’为’0110 110001 001001’,套用模板后为’11100110 10110001 10001001’即’E6 B1 89’.

  • Python3中字符串str(“”)默认为unicode编码,字节流可以使用byte(b”“)
  • Python2中字符串str(“”)默认为字节流, unicode流可以使用unicode(u”“)

Python3中字符串默认为unicde编码,Python中和编码相关的两个函数为decode和encode:

  • encode,unicode字符串 -> 某个编码方式的字节
  • decode, 某个编码方式的字节流 -> unicode字符串

这时候可能有人会问:那么对于一个str类型(在Python2中已经是字节数组)再应用decode是什么概念呢? 这时候其实str.encode(e)是和unicode(str).encode(e)是一样的,python底层做的时候也是确实这么做的。
所以对于Python2:

str.decode('中文编码').encode('utf-8')
str.decode('utf-8').encode('中文编码')
unicode("中文字符").encode("utf-8")

编码不一致就会报错:

>>> u'汉'
u'\u6c49'
>>> u'汉'.encode('utf8')
'\xe6\xb1\x89'
>>> u'汉'.encode('utf8').decode('utf8')
u'\u6c49'
>>> u'汉'.encode('utf8').decode('gbk')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'gbk' codec can't decode byte 0x89 in position 2: incomplete multibyte sequence

#sys.stdout = codecs.getwriter('utf-8')(sys.stdout)
>>> print sys.stdin.encoding
UTF-8
>>> str('')
'\xe6\xb1\x89'
>>> str('').decode('gbk')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'gbk' codec can't decode byte 0x89 in position 2: incomplete multibyte sequence
>>> str('汉').decode('utf8')
u'\u6c49'
>>> print str('汉').decode('utf8')
汉
>>> print sys.getdefaultencoding()
ascii
>>> sys.setdefaultencoding('UTF8')
>>> print sys.getdefaultencoding()
UTF8

#How to change file's encoding
#!/usr/bin/env python
# -*- coding: gbk -*-
版权声明:本文为博主原创文章,如需转载,请注明出处!

Fedora 16上源码建立pydev + eclipse的OpenStack开发环境笔记草稿 ( by quqi99 )

Fedora 16上源码建立pydev + eclipse的OpenStack开发环境笔记草稿  ( by quqi99 ) 作者:张华  发表于:2012-3-30 版权声明:可以任意转载,...
  • quqi99
  • quqi99
  • 2012年03月30日 13:49
  • 9211

reCaptcha验证码 ( by quqi99 )

reCaptcha验证码 ( by quqi99 )
  • quqi99
  • quqi99
  • 2011年01月11日 11:11
  • 3355

定制你自己的Linux系统 ( by quqi99 )

定制你自己的Linux ( by quqi99 ) 作者:张华  发表于:2013-09-21 版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本版权声明 ( http...
  • quqi99
  • quqi99
  • 2013年09月21日 09:26
  • 8681

一种Neutron部署拓扑 (by quqi99)

作者:张华  发表于:2014-03-04 版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本版权声明 (http://blog.csdn.net/quqi99 )...

Tomcat集群配置笔记 ( by quqi99 )

Tomcat集群配置笔记 ( by quqi99 )
  • quqi99
  • quqi99
  • 2011年04月07日 15:46
  • 6521

Hadoop知识分享文稿 ( by quqi99 )

Hadoop知识分享文稿 ( by quqi99 )
  • quqi99
  • quqi99
  • 2011年03月31日 15:19
  • 4344

JPA学习指南 ( by quqi99 )

JPA学习指南 ( by quqi99 )
  • quqi99
  • quqi99
  • 2011年04月07日 15:36
  • 2516

OpenStack Neutron FWaaS 学习 ( by quqi99 )

OpenStack Neutron FWaaS 学习 ( by quqi99 ) 作者:张华  发表于:2013-06-24 版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和...
  • starean
  • starean
  • 2013年06月27日 10:52
  • 984

Test OpenStack SRIOV (by quqi99)

**作者:张华 发表于:2016-12-06 版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本版权声明 ( http://blog.csdn.net/quqi99 ...
  • quqi99
  • quqi99
  • 2016年12月06日 16:10
  • 1338

Android分享文稿 ( by quqi99 )

Android分享文稿 ( by quqi99 )
  • quqi99
  • quqi99
  • 2011年04月06日 16:50
  • 3009
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:回顾乱码(by quqi99)
举报原因:
原因补充:

(最多只允许输入30个字)