python中的编码问题很让人头疼,python2和python3的处理方式不一样,这里只说python3的编码问题处理方法:
utf8(输入) ——> unicode(处理) ——> (输出)utf8
Python 里面处理的字符都是都是unicode 编码,因此解决编码问题的方法是把输入的文本(无论是什么编码)解码为(decode)unicode编码,然后输出时再编码(encode)成所需编码。一种更加有效的方法的是:对于txt文档,首先将txt文档另存为utf-8无bom编码,然后在python读入时用utf-8进行解码,保存的时候再用utf-8编码形式,这样文档处理可以一劳永逸。如:
codecs.open(path,'r',encoding='utf-8)
codecs.open(path,'w',encoding='utf-8)