接Unicode及编码处理心得

最新推荐文章于 2023-02-09 10:44:23 发布

leo_arui

最新推荐文章于 2023-02-09 10:44:23 发布

阅读量3.4k

点赞数

分类专栏： wxPython Python 文章标签： python 平台网络 io

本文链接：https://blog.csdn.net/leo_arui/article/details/321767

版权

wxPython 同时被 2 个专栏收录

24 篇文章 0 订阅

订阅专栏

Python

17 篇文章 0 订阅

订阅专栏

你那里可能有些地方不是太清楚吧，比如没有说到decode，所以很多人还是不明白
怎么转来转去的，我来补充一下，可能大部分跟你所说的有重复。

unicode字符串其实字符串以unicode为内码存放在内存中。有些平台上，使用2个
字节表示一个字符（英文字母和中文汉字都是用双字节来表示），称为UCS－2；也
有平台采用4字节表示一个字符，称为UCS－4；这时，2个字节（或4个）是作为一
个单位来处理的，拆开没有意义，就好像一个 ascii字符的字节只取4个位的值一
样。python采用的是UCS-2。因为unicode字符串包括了几乎所有文字，所以我们应
该尽量采用 unicode字符串。

（UCS－2和UCS－4这可以在网上找到解释。）

以上讲的是内码，如果要把unicode字符串通过网络发送，或者写入文件，这些都
是流IO处理，以字节为单位，也称字节流。这就要把双字节或四字节单位转成字节
单位，称为编码（encode）；而一个非unicode字符串要转换成unicode字符串，就
称为解码（decode）。

另外要区分UCS－2和utf-16，前面已经说了，UCS－2中单个字节无意义，不代表哪
一个字符，所以要把unicode字符串以utf-16编码存入文件，也要编码：
f = open ('test.txt', 'wb+') #注意要以二进制方式打开文件
a = unicode('中国', 'cp936')
# 生成一个unicode字符串，可以用a = '中国'.decode('cp936')替换，可能会更
清楚，与encode调用对称。
f.write(a.encode('utf-16'))
#可以试试其它编码如utf-8，会生成unicode文件头标识，WindowsXP的记事本也能
够识别这种格式，打开另存为，就会显示当前的编码。
f.close()

另外，调用unicode('中国', 'cp936')就是一个解码。