爬虫返回数据乱码问题

在进行爬取过程中会遇到 页面解析时为中文, 但是爬取下来的时候发现中文为乱码的情况,这种情况的产生实则是编码问题
以阳光问政 这个网站为例子,在页面上查看的数据如下图

https://img-blog.csdnimg.cn/20181219165527103.jpeg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MTgyNzI2OA==,size_16,color_FFFFFF,t_70
而实际返回的则是诸如此类的乱码

在这里插入图片描述

所以我们应在解析的时候进行编码的转换,下面是实际的代码:

rsp = requests.get(url="http://wz.sun0769.com/index.php/question/questionTypetype=4&page=1", headers=headers)
rsp.encoding = 'GBK'
print(rsp.text)

处理后的返回结果如下图
在这里插入图片描述

其中“gbk" 可以根据不同网页的不同加密方式进行转换,还有“gb2312"等格式,具体情况具体分析

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值