<pre name="code" class="python"> wordList = textParse(open('email/ham/%d.txt' % i).read())
在python3中读取文件时报错:UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 199: illegal multibyte sequence
网上各种资料大都显示是文件编码问题,所以就把utf-8,gbk,asicc等各种编码方式都试了一遍,还是没有解决问题。
然后仔细看报错信息,根据decode byte 0xae in position 199看出来好像是文件中某个字节不能解码,问题出来了,文件中包含了非法字符。
打开文件一看,第二行中夹杂着“�”字符,这个字符本来是个普通问好“?”不知道什么原因放入eclipse后就变了,删除之后,一切就正常啦。