**
起始目的
**
用词云来看小说(文本文档)的主要内容。
障碍
报错:UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xc1 in position 2: invalid start byte
查找原因
得知:可能是由于文件中包含中文字符,而默认的encoding="utf-8"是对英文字符进行读取的,需要将其修改为encoding=“GB2312”, 对包含中文字符的文件内容进行读取并解码,如果不包含中文字符,则应为“utf-8”
后来
将utf-8 改成 GB2312:报错
UnicodeDecodeError: ‘gb2312’ codec can’t decode byte 0x86 in position 21631: illegal multibyte sequence
最终结果
尝试将GB2312改成GB18030 :成功