Python编码问题总结

最新推荐文章于 2025-01-06 21:30:00 发布

转载最新推荐文章于 2025-01-06 21:30:00 发布 · 925 阅读

Python 专栏收录该内容

5 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

关于文件开头的"编码指示"，也就是 # -*- coding: -*- 这个语句。Python 默认脚本文件都是 ANSCII 编码的，当文件
中有非 ANSCII 编码范围内的字符的时候就要使用"编码指示"来修正。

关于 sys.defaultencoding，这个在解码没有明确指明解码方式的时候使用。比如我有如下代码：

#! /usr/bin/env python
# -*- coding: utf-8 -*-

s = '中文' # 注意这里的 str 是 str 类型的，而不是 unicode
s.encode('gb18030')

这句代码将 s 重新编码为 gb18030 的格式，即进行 unicode -> str 的转换。因为 s 本身就是 str 类型的，因此
Python 会自动的先将 s 解码为 unicode ，然后再编码成 gb18030。因为解码是python自动进行的，我们没有指明解码方
式，python 就会使用 sys.defaultencoding 指明的方式来解码。很多情况下 sys.defaultencoding 是
ANSCII，如果 s 不是这个类型就会出错。
拿上面的情况来说，我的 sys.defaultencoding 是 anscii，而 s 的编码方式和文件的编码方式一致，是 utf8 的，所
以出错了:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position
0: ordinal not in range(128)
对于这种情况，我们有两种方法来改正错误：
一是明确的指示出 s 的编码方式

#! /usr/bin/env python
# -*- coding: utf-8 -*-

s = '中文'
s.decode('utf-8').encode('gb18030')

二是更改 sys.defaultencoding 为文件的编码方式

#! /usr/bin/env python
# -*- coding: utf-8 -*-

import sys
reload(sys) # Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法，我们需要重新载入
sys.setdefaultencoding('utf-8')

str = '中文'
str.encode('gb18030')

///////////////////////////////////////////////////////////////////////////////////

1. pyhton的所有内置库、方法接受的是unicode编码的字符串。

难道os不属于内置库？内置库如何理解

#coding:utf-8
#指定本文件编码为utf8
import os
# 以下为示例代码，不一定能运行。随意写的，无编译运行过。
# 例子以XP平台为例，因为linux平台编码（UTF-8）与window平台（GBK）不一样。
# 假设D盘下面有很多中文名称文件
filelist = os.listdir(r"d:\\") # 此处返回的list中的中文是以GBK编码的，你可以通过查看cmd窗口属性看到。
for path in filelist:
if os.path.isdir(path): continue
fp = open(path.decode("GBK") , 'rb') # 如果此处用 path.decode("UTF-8") 就会抛异常，原因是wind的dir命令返回的是GBK编码
print len(fp.read())
fp.close()
filepath =r"d:\\中文文件.doc" # 假设此文存在，记得要带中文
fp = open(filepath.decode('utf-8'), "rb") #这里使用utf8参数进行解码，原因是文件头里有句coding: utf-8
print len(fp.read())
fp.close()
path2 = u"d:\\中文文件.doc" # 假如这里有个u在前面，这个变量就是unicode编码了，不用解码。
fp = open(path2, 'rb')
print len(fp.read())
fp.close()

////////////////////////////////////////////////////////////////

对于python的unicode变量，使用print输出的话，会使用sys.getfilesystemencoding()返回的编码，把它变成str

解码了的文本只存在运行环境中,如果你需要打印/保存/输出给数据库/网络传递,就又需要一次编码过程。

"它们如果确实是一段“文本”，比如你想print出来看看。那么你必须知道它们的编码。然后decode成unicode。"
这里的加引号的"文本",其实还是字节流(bytes),而不是真正的文本(unicode),只是说明我们知道他是可以解码成文本的.

如果字符串是这样定义：s=u'中文'

则该字符串的编码就被指定为unicode了，即python的内部编码，而与代码文件本身的编码无关。因此，对于这种情况做编码转换，只需要直接使用encode方法将其转换成指定编码即可。

/////////////////////////////////////////////////////////////////

2.2. 字符编码声明

源代码文件中，如果有用到非ASCII字符，则需要在文件头部进行字符编码的声明，如下：

1	`#-- coding: UTF-8 --`

实际上Python只检查#、coding和编码字符串，其他的字符都是为了美观加上的。另外，Python中可用的字符编码有很多，并且还有许多别名，还不区分大小写，比如UTF-8可以写成u8。参见http://docs.python.org/library/codecs.html#standard-encodings。

另外需要注意的是声明的编码必须与文件实际保存时用的编码一致，否则很大几率会出现代码解析异常。现在的IDE一般会自动处理这种情况，改变声明后同时换成声明的编码保存，但文本编辑器控们需要小心：）

2.3. 读写文件

内置的open()方法打开文件时，read()读取的是str，读取后需要使用正确的编码格式进行decode()。write()写入时，如果参数是unicode，则需要使用你希望写入的编码进行encode()，如果是其他编码格式的str，则需要先用该str的编码进行decode()，转成unicode后再使用写入的编码进行encode()。如果直接将unicode作为参数传入write()方法，Python将先使用源代码文件声明的字符编码进行编码然后写入。

 
        # coding: UTF-8
       
        f 
        = 
        open
        (
        'test.txt'
        )
       
        s 
        = 
        f.read()
       
        f.close()
       
        print 
        type
        (s) 
        # <type 'str'>
       
        # 已知是GBK编码，解码成unicode
       
        u 
        = 
        s.decode(
        'GBK'
        )
       
        f 
        = 
        open
        (
        'test.txt'
        , 
        'w'
        )
       
        # 编码成UTF-8编码的str
       
        s 
        = 
        u.encode(
        'UTF-8'
        )
       
        f.write(s)
       
        f.close()

另外，模块codecs提供了一个open()方法，可以指定一个编码打开文件，使用这个方法打开的文件读取返回的将是unicode。写入时，如果参数是unicode，则使用open()时指定的编码进行编码后写入；如果是str，则先根据源代码文件声明的字符编码，解码成unicode后再进行前述操作。相对内置的open()来说，这个方法比较不容易在编码上出现问题。

 
        # coding: GBK
       
        import 
        codecs
       
        f 
        = 
        codecs.
        open
        (
        'test.txt'
        , encoding
        =
        'UTF-8'
        )
       
        u 
        = 
        f.read()
       
        f.close()
       
        print 
        type
        (u) 
        # <type 'unicode'>
       
        f 
        = 
        codecs.
        open
        (
        'test.txt'
        , 
        'a'
        , encoding
        =
        'UTF-8'
        )
       
        # 写入unicode
       
        f.write(u)
       
        # 写入str，自动进行解码编码操作
       
        # GBK编码的str
       
        s 
        = 
        '汉'
       
        print 
        repr
        (s) 
        # '\xba\xba'
       
        # 这里会先将GBK编码的str解码为unicode再编码为UTF-8写入
       
        f.write(s) 
       
        f.close()

2.4. 与编码相关的方法

sys/locale模块中提供了一些获取当前环境下的默认编码的方法。

 
        # coding:gbk
       
        import 
        sys
       
        import 
        locale
       
        def 
        p(f):
       
        print 
        '%s.%s(): %s' 
        % 
        (f.__module__, f.__name__, f())
       
        # 返回当前系统所使用的默认字符编码
       
        p(sys.getdefaultencoding)
       
        # 返回用于转换Unicode文件名至系统文件名所使用的编码
       
        p(sys.getfilesystemencoding)
       
        # 获取默认的区域设置并返回元祖(语言, 编码)
       
        p(locale.getdefaultlocale)
       
        # 返回用户设定的文本数据编码
       
        # 文档提到this function only returns a guess
       
        p(locale.getpreferredencoding)
       
        # \xba\xba是'汉'的GBK编码
       
        # mbcs是不推荐使用的编码，这里仅作测试表明为什么不应该用
       
        print 
        r
        "'\xba\xba'.decode('mbcs'):"
        , 
        repr
        (
        '\xba\xba'
        .decode(
        'mbcs'
        ))
       
        #在笔者的Windows上的结果(区域设置为中文(简体, 中国))
       
        #sys.getdefaultencoding(): gbk
       
        #sys.getfilesystemencoding(): mbcs
       
        #locale.getdefaultlocale(): ('zh_CN', 'cp936')
       
        #locale.getpreferredencoding(): cp936
       
        #'\xba\xba'.decode('mbcs'): u'\u6c49'

3.一些建议

3.1. 使用字符编码声明，并且同一工程中的所有源代码文件使用相同的字符编码声明。

这点是一定要做到的。

3.2. 抛弃str，全部使用unicode。

按引号前先按一下u最初做起来确实很不习惯而且经常会忘记再跑回去补，但如果这么做可以减少90%的编码问题。如果编码困扰不严重，可以不参考此条。

3.3. 使用codecs.open()替代内置的open()。

如果编码困扰不严重，可以不参考此条。

3.4. 绝对需要避免使用的字符编码：MBCS/DBCS和UTF-16。

这里说的MBCS不是指GBK什么的都不能用，而是不要使用Python里名为'MBCS'的编码，除非程序完全不移植。

Python中编码'MBCS'与'DBCS'是同义词，指当前Windows环境中MBCS指代的编码。Linux的Python实现中没有这种编码，所以一旦移植到Linux一定会出现异常！另外，只要设定的Windows系统区域不同，MBCS指代的编码也是不一样的。分别设定不同的区域运行2.4小节中的代码的结果：

 
        #中文(简体, 中国)
       
        #sys.getdefaultencoding(): gbk
       
        #sys.getfilesystemencoding(): mbcs
       
        #locale.getdefaultlocale(): ('zh_CN', 'cp936')
       
        #locale.getpreferredencoding(): cp936
       
        #'\xba\xba'.decode('mbcs'): u'\u6c49'
       
        #英语(美国)
       
        #sys.getdefaultencoding(): UTF-8
       
        #sys.getfilesystemencoding(): mbcs
       
        #locale.getdefaultlocale(): ('zh_CN', 'cp1252')
       
        #locale.getpreferredencoding(): cp1252
       
        #'\xba\xba'.decode('mbcs'): u'\xba\xba'
       
        #德语(德国)
       
        #sys.getdefaultencoding(): gbk
       
        #sys.getfilesystemencoding(): mbcs
       
        #locale.getdefaultlocale(): ('zh_CN', 'cp1252')
       
        #locale.getpreferredencoding(): cp1252
       
        #'\xba\xba'.decode('mbcs'): u'\xba\xba'
       
        #日语(日本)
       
        #sys.getdefaultencoding(): gbk
       
        #sys.getfilesystemencoding(): mbcs
       
        #locale.getdefaultlocale(): ('zh_CN', 'cp932')
       
        #locale.getpreferredencoding(): cp932
       
        #'\xba\xba'.decode('mbcs'): u'\uff7a\uff7a'