关于Python的ASCII, GB2312, Unicode , UTF-8 相互转换

ASCII 是一种字符集,包括大小写的英文字母、数字、控制字符等,它用一个字节表示,范围是 0-127 Unicode分为UTF-8和UTF-16。
UTF-8变长度的,最多 6 个字节,小于 127 的字符用一个字节表示,与 ASCII 字符集的结果一样,ASCII 编码下的英语文本不需要修改就可以当作 UTF-8 编码进行处理。 
Python 从 2.2 开始支持 Unicode ,函数 decode( char_set )可以实现 其它编码到 Unicode 的转换,函数 encode( char_set )实现 Unicode 到其它编码方式的转换。 
比如

1

("你好").decode( "GB2312")

将得到 

u'\u4f60\u597d',
即 "你"和“好"的 Unicode 码分别是 0x4f60 和 0x597d 
再用 

1

(u'\u4f60\u597d').encode("UTF-8")

  

将得到 

'\xe4\xbd\xa0\xe5\xa5\xbd'
它是 “你好”的UTF-8编码结果。 
python中使用 unicode的关键:unicode是一个类,函数unicode(str,"utf8")从utf8编码(当然也可以是别的编码)的字符串str生成 unicode类的对象,而函数unc.encode("utf8")将unicode类的对象unc转换为(编码为)utf8编码(当然也可以是别的编码)的字符串。于是,编写unicode相关程序,需要做的事情是 * 获取数据(字符串)时,用unicode(str, "utf8")生成unicode对象 * 在程序中仅使用unicode对象,对程序中出现的字符串常量都以u"字符串"的形式书写 * 输出时,可将unicode对象转换为任意编码输出,使用str.encode("some_encoding")

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

>>> unicode("你好""utf8")  

       u'\u4f60\u597d'  

   

>>> x = _  

   

>>> type(x)  

   

>>> type("你好")  

   

>>> x.encode("utf8")  

       '\xe4\xbd\xa0\xe5\xa5\xbd'  

   

>>> x.encode("gbk")  

       '\xc4\xe3\xba\xc3'  

   

>>> x.encode("gb2312")  

       '\xc4\xe3\xba\xc3'  

   

>>> print x  

       你好  

   

>>> print x.encode("utf8")  

       你好  

   

>>> print x.encode("gbk")  

       ???  

  

以上是测试结果(Ubuntu 6.06,locale为utf8),注意type(x)和type("你好")的区别。从编码上可以看出utf8编码与gbk不同。在utf8的 locale设置下,打印x按该环境变量编码(我猜我猜我猜猜猜),而打印x.encode("gbk")则是乱码。

 

在开头加上
import sys
reload(sys)
sys.setdefaultencoding( “utf-8” )

Python自然调用ascii编码解码程序去处理字符流,当字符流不属于ascii范围内,就会抛出异常(ordinal not in range(128))。所以解决方法就是修改默认编码,需要注意的是需要先调用reload方法。
 

 

sys.getfilesystemencoding()获取当前编码格式

 

 

https://www.cnblogs.com/jxzheng/p/5186490.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值