读取中文txt文件时,经常会出现:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbc in position 15: invalid start byte;
UnicodeDecodeError: 'gbk' codec can't decode byte 0xbc in position 15: illegal multibyte sequence
主要讲一种情况就是文章中含有utf-8或gbk无法编码的字符情况。
好多人都说加入’ignore’,但一直都没有说清楚是在open函数中加入,还是在.read()中加入(其实是在open函数中加入,如下面例子)。
t=open('D:\我的文档\下载\XXX.docx','r',encoding='GBK',errors='ignore')#errors='ignore'