在做切词实验的时候,用jieba模块,相信很多人都已经熟悉。但是中文切词的编码问题的困扰你遇到了吗?
python3中的decode常常报错,Windows操作系统环境下,jieba切词默认时gbk编码。
这里,要注意,在输入和输出文件打开时用codecs去打开,说明是utf-8编码,一切问题就解决了
import codecs
。。。
fin = codecs.open(inputFile, 'r',encoding="utf-8")
fout = codecs.open(outputFile, 'a+','utf-8')
。。。。