关于python爬虫中报错以及爬下来的数据中文乱码

@爬虫报错以及爬下来的html中文乱码

爬虫报错和爬下来的数据中文字符乱码

content.decode报错

最近在学习python爬虫时,用requests.get获取的数据进行decode()时发现程序会报错,因为python默认以utf-8进行decode,报错提示utf-8无法decode,因此用decode(“utf-8”)同样会报错。

换成GBK进行decode

在网上查询了一下说指定用GBK进行decode就可以了,因此代码换成了decode(“GBK”),结果是成功爬数据了,但是打开爬下来的html发现里面的内容英文没有问题,但是中文成了一大堆莫名其妙的东西。

问题的解决

最终去chrome里检查了一下Elements,发现charset=UTF-8,就试了下代码写成
content.decode(“UTF-8”),结果爬下来的数据就正常了,中文也没能正确显示了,就是这么的莫名其妙???

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值