对python字符编码操作的一些认识

读了一篇对python中文字符编码讲解的很好的文章后(http://python.jobbole.com/80831/),又通过查看一些文章,对字符编码的问题有了一些新的认识。很多原来纠缠不清的概念能够理清楚了:

1、字符与字节是两个独立的概念。字符表示的是文本中的单个符号,一个字符不是一个字节。一个字符可以有多种字节表现形式。在python里,Unicode表示字符串,str表示字节串。比如‘汉’这个字符,是单个字符,但在str里却不是单个字节。所以,一个字符不是一个字节,str不是字符串而是字节串。

2、unicode表示字符编码值,不指定字符的具体表现形式,utf-8、utf-16指定unicode编码具体的存储、传输形式;gbk/gb2312/big5既指定了字符的编码值,又指定了编码的存储、传输形式(gbk/gb2312/big5编码形式:http://blog.minidx.com/2008/12/06/1689.html)。比如,同一个字符‘汉’,unicode编码是6C49,gbk编码是BABA(汉字编码查询:http://bm.kdd.cc/),要把gbk编码转换成utf8编码,就得先转成unicode编码值,再指定utf8编码形式。

3、utf8、gbk、gb2312、big5没有大小端之分,而utf16有。utf8是互联网中用的最多的编码格式。


另附一篇很好的解释编码的文章:http://www.cnblogs.com/cy163/archive/2007/05/31/766886.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值