decode与encode
decode()解码,encode()编码
最近用python对几千个txt文件进行分词处理,总是会报编解码的错误。
通过查阅资料终于发现问题出在什么地方。
读取txt中的内容时要根据txt的编码格式来决定是否需要解码。
打开TXT文件点击另存查看编码格式,我用的文本都是ANSI格式,这种格式在读取时只需要直接读取即可不需要解码。进行分词后再读入新建的文档中,如果需要可以
splittext=str(s.encode('utf-8'));这时新建的txt就是utf-8格式