在python 中对中文进行处理的时候,往往涉及到编码转换的问题,通常使用以下三种编码格式:
utf-8
gbk
unicode
国内用的比较多的是
gbk
格式,
unicode
是一个很好的编码方案,将世界各国的语言进行了统一的编码,美国人后来觉得自己吃了大亏,于是又搞了一种变长编码的
utf-8
的折衷方案。
在
python
中字符串的默认编码是
unicode
,在进行编码转换的时候,一般将
unicode
作为中间编码,即将其他编码的字符串解码为
unicode
,再将
unicode
编码为某个编码格式,
python
中相应的函数为
decode
和
encode
。
在
python
中文编码问题中,主要涉及到两点:文件的编码格式和编码声明。
在代码中字符串的默认的编码格式与代码文件的格式是一致的。在
vim
中书写代码的时候,可以通过
set fileencodings
来进行设置,可以同时设置多个编码,
vim
会根据顺序来来对文件进行解码。在对字符串进行解码之前,应该确认代码文件的编码格式。
一般在文件的开始都会用下面的形式进行编码声明:
#!/usr/bin/env python
# -*- coding : gbk - *-
即声明编码格式为
gbk
,
-*-
是为了美观,可以去掉。
python
解释器就会默认采用声明的编码进行解码。在实际编程过程中,编码声明和文件的编码格式最好一致,当二者出现不一致的时候,往往会出现问题,特别是采用不同的编辑器修改后的文件,编码往往存在着差异。
当输入的中文字符串存在
gbk
编码和
utf-8
编码均有可能时,可以通过
try-except
进行嵌套处理,当在某一个编码下解码时没有触发
except
的时候,即为该编码的编码格式。
在对十六进制的编码进行处理的时候,还会出现转义的问题。在读入编码
\xXX
的过程中,
X
代表十六进制字符,
\x
会被自动分解成
\
、
x
、
X
和
X
的单个字符来处理,此时
\
已经被转义为
\\
,这样就完全偏离了初衷,就可以通过正则表达式就行替换处理。