Python爬虫学习(2):爬取网站返回的内容为乱码解决方法

1、爬取某网站内容时,返回的结果为乱码,如图:

在这里插入图片描述

2、原因解释

Requests会基于HTTP头部响应的编码做出有根据的推测,当访问r.text时,Requests会使用其推测的文本编码。

查看网页返回的字符集类型:r.apparent_encoding
查看自动判断的字符集类型:r.encoding
在这里插入图片描述
可以看到Requests推测的文本编码(ISO-8859-1)与源网页编码(utf-8) 不一致,因此会导致乱码问题的出现。

注:源网页也能直接查看编码格式,如下图:
在这里插入图片描述

3、解决方法

这里要注意顺序,需要先指定r.encoding的编码格式,再访问r.text。即第9行代码必须写在第10行代码之前。

(1)方法一:直接指定r.encoding为源网页的编码格式

r.encoding="utf-8"

在这里插入图片描述
(2)方法二:通过r.apparent_encoding属性来指定,直接将其值赋给r.encoding

r.encoding = r.apparent_encoding

在这里插入图片描述
(3)方法三:通过编码、解码的方式
在这里插入图片描述

4、乱码问题解决

在这里插入图片描述
-----end-----

  • 4
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值