Requests使用时踩过的坑(一):当使用Text获取网页源代码时乱码了怎么办(requests常见的几种解码方式和常见的编码方式)

在很多的时候,一些朋友们都会遇到这样的情况,我们可以访问一个网页,但是却无法获取网站上面的一些内容,而且那些内容还是一些重要的信息,必须要获取,那么这种情况我们该怎么办呢?

百度实例

编写代码

在我们的编辑器中输入以下的代码

Sublime显示界面

在这里插入图片描述

Pycharm显示界面

在这里插入图片描述

Turtle显示界面

在这里插入图片描述
所以我们可以看出,这并不是我们的编辑器的问题,而是我们的Python的模块当中是有问题的

分析

我们可以看到,我们访问不出来的内容全部都是我们的中文内容,而不是我们的英文,同时我们也可以看到我们的英文是可以正常访问的。我们通过阅读Requests的官方文档可以得知,我们的requests的编码方式默认并不是UTF-8,所以有的时候并不能很好的解码。我们可以访问之后重新编码,设置为UTF-8,然后获取我们所需要的信息

方法

更改返回值编码

这就是我们上文所描述的那种方法,我们的程序会根据网站的情况自动为你解码,这也比较适合多种语言和多种方式并存然后比较想要代码简洁的程序员。如果网站不符合的话,你可以在代码前面加上这一行代码,这一行代码的意思是,将我们获取到的文件编码成为UTF-8

res.encoding="utf-8"

这样子的话,我们的程序就可以正常的运行了
在这里插入图片描述

import requests

# 我们现在使用测试代码对百度进行模拟访问

res = requests.get('https://www.baidu.com')

# 重新更改我们的解码方式
res.encoding="utf-8"
# 输出状态码
print(res)
# 输出网页源代码
print(res.text)

更改编码方式

这一行代码就是直接更改我们的编码方式,使得文件可以解析我们的代码,那么在这里我们将我们的编码方式设置成为apparent_encoding

import requests

# 我们现在使用测试代码对百度进行模拟访问

res = requests.get('https://www.baidu.com')

# 重新更改我们的解码方式
res.encoding = res.apparent_encoding
# 输出状态码
print(res)
# 输出网页源代码
print(res.text)

在这里插入图片描述

我们同样可以看到,我们的程序成功运行了

其他编码方式

我们在Python中除了经常使用UTF-8,我们还可能会使用以下的编码方式

  1. UTF-16
    在这里插入图片描述
    就不多说了,完全乱码

  2. GBK
    在这里插入图片描述
    也是不行的,有乱码

  3. GBK2
    在这里插入图片描述
    在英文和中文的网站,我们可以使用GBK2来进行编码

  4. ASCLL
    在这里插入图片描述

这是一种编码方式,这一般用于小型机的信息传输

  1. Unicode
    在这里插入图片描述
    Unicode是一个很大的集合,现在的规模可以容纳100多万个符号。每个符号的编码都不一样,比如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,“汉”这个字的Unicode编码是U+6C49。

转载声明

如需转载,请附上原文链接:Requests使用时踩过的坑(一):当使用Text获取网页源代码时乱码了怎么办(requests常见的几种解码方式和常见的编码方式)

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

地摊主老袁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值