读了一篇对python中文字符编码讲解的很好的文章后(http://python.jobbole.com/80831/),又通过查看一些文章,对字符编码的问题有了一些新的认识。很多原来纠缠不清的概念能够理清楚了:
1、字符与字节是两个独立的概念。字符表示的是文本中的单个符号,一个字符不是一个字节。一个字符可以有多种字节表现形式。在python里,Unicode表示字符串,str表示字节串。比如‘汉’这个字符,是单个字符,但在str里却不是单个字节。所以,一个字符不是一个字节,str不是字符串而是字节串。
2、unicode表示字符编码值,不指定字符的具体表现形式,utf-8、utf-16指定unicode编码具体的存储、传输形式;gbk/gb2312/big5既指定了字符的编码值,又指定了编码的存储、传输形式(gbk/gb2312/big5编码形式:http://blog.minidx.com/2008/12/06/1689.html)。比如,同一个字符‘汉’,unicode编码是6C49,gbk编码是BABA(汉字编码查询:http://bm.kdd.cc/),要把gbk编码转换成utf8编码,就得先转成unicode编码值,再指定utf8编码形式。
3、utf8、gbk、gb2312、big5没有大小端之分,而utf16有。utf8是互联网中用的最多的编码格式。
另附一篇很好的解释编码的文章:http://www.cnblogs.com/cy163/archive/2007/05/31/766886.html