每天一点点,记录工作中遇到的问题,及实操可行
python response 解析网页时 ,gbk无法解码
错误:
UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xaf in position 111: illegal multibyte sequence
gbk编码,但是有多字符和特殊字符gbk无法解码
解决方式1
右键–检查 (或显示网页源代码)
在console输入document.charset 查看编码方式
确定编码方式后,如果是utf-8 就改编码语言,如果是gbk那么问题就改为gb18030 进行解码
datas = res.content.decode('gb18030')
如果这个方法还是无法解决,那么试一下下边这个方法:
**方法二:**粗暴解决
datas = res.content.decode('gbk','ignore')