我们知道,在python中有一句经典名言是“decode early,unicode everywhere,encode later”表示一个字符串建议先全部decode为unicode编码,然后根据所需encode为目标编码。那么对字符串的处理基本没什么问题了。
但是涉及到写文件时的编码问题现在在下面总结一下:
#coding:utf-8
f = open('file.txt', 'wb') #以二进制方式打开文件
f.write('写入中文') # 这样写入后notepad++打开时文件编码是ANSI
f.close()
如果数据是unicode,先编码再写入:
#coding:utf-8
f = open('file.txt', 'wb')
f.write(u'写入中文'.encode('utf-8') # 这样写入后notepad++打开时文件编码是utf-8
f.close()
用codecs模块的话,通常的情况是你要写入的数据就是unicode string,不需要再decode了。
#coding:utf-8
import codecs #这个模块可以实现。
s = u'中文;123' # s是unicode string
f = codecs.open('ufile.log', 'w', 'utf-8')
f.write(s) #直接写入,codecs负责编码,文件编码为utf-8
f.close()
相信上面的代码已经能解决对文件编码的读写问题(把w改成r就是读),其中强烈建议最上面的#coding:utf-8加上(详情查PEP0263看https://www.python.org/dev/peps/pep-0263/)。