Python爬虫-requests库抓取页面内容中文乱码

Python爬虫-requests库抓取页面内容中文乱码

在抓取页面内容过程中,获取的页面内容中文乱码;

response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        return -1

乱码内容如下:

<div class="cpright">
<p style="margin: 10px 0 0; padding: 0px;"><a style="cursor: pointer;" id="foot_sethome" target="_self">将天天基金网设为上网首页吗?</a>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<a id="foot_setfavor" style="cursor: pointer;" target="_self">å°†å¤©å¤©åŸºé‡‘ç½‘æ·»åŠ åˆ°æ”¶è—å¤¹å—ï¼Ÿ</a></p>
<p><a target="_blank" href="http://help.1234567.com.cn/aboutus/about.html">å
³äºŽæˆ‘们</a><span>|</span><a target="_blank" href="http://help.1234567.com.cn/aboutus/licenses.html">资质证明</a><span>|</span><a target="_blank" href="http://fundact.eastmoney.com/ttjjyjzx/">ç ”ç©¶ä¸­å¿ƒ</a><span>|</span><a target="_blank" href="http://help.1234567.com.cn/aboutus/connect.html">联系我们</a><span>|</span><a target="_blank" href="http://help.1234567.com.cn/aboutus/security_guid.html">安å
¨æŒ‡å¼•</a><span>|</span><a target="_blank" href="http://help.1234567.com.cn/aboutus/relief.html">å
è´£æ¡æ¬¾</a><span>|</span><a target="_blank" href="http://help.1234567.com.cn/aboutus/secret.html">隐私条款</a><span>|</span><a target="_blank" href="http://help.1234567.com.cn/aboutus/risktips.html">风险提示函</a><span>|</span><a target="_blank" href="http://feedback.1234567.com.cn/">意见建议</a><span>|</span><a id="ttfund_onlineKF" target="_self" href="javascript:;">在线客服</a></p>
<p class="cp"> 天天基金客服热线:95021&nbsp;/&nbsp;4001818188<span>|</span>客服邮箱:<a target="_blank" href="mailto:vip@1234567.com.cn">vip@1234567.com.cn</a><span>|</span>人工服务时间:工作日 7:30-21:30 双休日 9:00-21:30<br> 郑重声明:<a target="_blank" href="http://help.1234567.com.cn/aboutus/licenses.html" class="footFundCertLink">天天基金系证监会批准的基金销售机构[000000303]</a>ã€‚å¤©å¤©åŸºé‡‘ç½‘æ‰€è½½æ–‡ç« ã€æ•°æ®ä»
ä¾›å‚è€ƒï¼Œä½¿ç”¨å‰è¯·æ ¸å®žï¼Œé£Žé™©è‡ªè´Ÿã€‚<br> 中国证监会上海监管局网址:<a href="http://www.csrc.gov.cn/pub/shanghai/">www.csrc.gov.cn/pub/shanghai</a><br>
</p>
<p class="cp"><span class="footer-icp">沪ICP证:沪B2-20130026</span>&nbsp;&nbsp;<a href="https://beian.miit.gov.cn/">网站备案号:沪ICP备05006054号</a>&nbsp;<span class="footer-ghs"><a href="http://www.beian.gov.cn/portal/registerSystemInfo?recordcode=31010402000118" target="_blank">沪å
¬ç½‘安备 31010402000118</a></span>&nbsp;版权所有:天天基金网&nbsp;违法和不良信息举报:021-54509966/021-24099099</p>
<p>
<a class="footera footer-police" title="上海网警网络110" href="http://www.cyberpolice.cn/"></a>
<a class="footera footer-zx110" title="网络社会征信网" href="http://www.zx110.org/"></a>
<a class="footera footer-shjubao" title="上海违法和违规信息举报中心" href="http://www.shjbzx.cn/"></a>
<a class="footera footer-hgwb" title="沪å
¬ç½‘备" href="http://www.zx110.org/picp/?sn=310104031200"></a>
<a class="footera footer-jbzx" title="中国互联网违法和不良信息举报中心" href="http://www.12377.cn/"></a>
</p>
</div>
</div>
</div>
</div>

由此可以猜想到,是在获取页面的过程中出现了编码问题,使用:

response.text.encode("latin1").decode("utf-8")

将获取的内容先进行“latin1”编码,再进行解码(我所抓取网页的编码格式为UTF-8)。最终成功解决,中文显示正常。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值