UnicodeDecodeError: 'gbk' codec can't decode byte 0xd0 in position 13345: illegal multibyte sequence

1 import requests
2 
3 headers = {
4     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
5 }
6 url = "https://www.dytt8.net/html/gndy/dyzz/list_23_2.html"
7 response = requests.get(url, headers=headers)
8 text = response.content.decode(encoding='gbk')
9 print(text)

运行报错,

 

查看页面是有无法识别的内容

百度试过更换编码gb18030,可是还是会报错.

最后找到了解决的方法,在decode方法中有errors参数

如下:

text = response.content.decode(encoding='gbk', errors='ignore')

程序就不报错正常执行了.

百度中找到个方法打开网页:F12 在console输入document.charset 查看编码方式

 

当然,其实在这个程序中不需要提取这些内容,直接使用response.text()也可以.

 

转载于:https://www.cnblogs.com/weiwei2016/p/10400618.html

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值