Mac OS python 3.7
下载20_newsgroup后用python读取方式为‘rb’二进制读取后是bytes格式的数据,然后要转成string一直出现各种
UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xff in position 12423: invalid start byte
注意了!!! 一定要去查看文件的编码格式是什么,我这边查出来文件编码格式是utf-8但是转string不成功,
然后这时仔细看还有latin1编码格式,然后 bytes_string.decode(‘latin1’)成功读取到的数据。
01-29
1万+
![](https://csdnimg.cn/release/blogv2/dist/pc/img/readCountWhite.png)