记录使用simhash和 CountVectorizer计算文本相似性时遇到的问题,,主要是我线下的Windows系统使用的是python3.5,线上评测使用的是python2.7。。。
问题:
UnicodeDecodeError: ‘utf8’ codec can’t decode byte 0xe6 in position 0: invalid continuation byte
解决方案:
在报错的文件内填入一下内容:
if sys.getdefaultencoding() != 'gbk':
reload(sys)
sys.setdefaultencoding('gbk')
如图所示: