前言
去年吧,在做一个文本分类的项目时,对编码问题做过一次总结,链接在这达
但是问题常新常有,之前的解决办法不能应对了,为了下次更加省时省力,还不让心情变糟,才有了这次的博客。
背景
这次想做的是一个情感分析的项目,目前尚在练习demo,总结方法当中,语料是别人开源出来的,感谢这样的好人,不需要我在爬虫了,好人简书链接戳这里:我是链接
他这个语料库编码很奇怪:
使用file filename
命令查看文件编码时发现是IOS-8859
pos.1.txt: ISO-8859 text, with CRLF, CR line terminators
然后在读取文件内容时,不出意外的也报错了~
with codecs.open(rootdir+'/'