Requests使用时踩过的坑（一）：当使用Text获取网页源代码时乱码了怎么办（requests常见的几种解码方式和常见的编码方式）

最新推荐文章于 2024-07-12 16:58:11 发布

地摊主老袁

最新推荐文章于 2024-07-12 16:58:11 发布

阅读量1k

点赞数

文章标签： python web 编程语言

本文链接：https://blog.csdn.net/qq_45030271/article/details/116329421

版权

在很多的时候，一些朋友们都会遇到这样的情况，我们可以访问一个网页，但是却无法获取网站上面的一些内容，而且那些内容还是一些重要的信息，必须要获取，那么这种情况我们该怎么办呢？

百度实例

编写代码

在我们的编辑器中输入以下的代码

Sublime显示界面

在这里插入图片描述

Pycharm显示界面

在这里插入图片描述

Turtle显示界面

在这里插入图片描述
所以我们可以看出，这并不是我们的编辑器的问题，而是我们的Python的模块当中是有问题的

分析

我们可以看到，我们访问不出来的内容全部都是我们的中文内容，而不是我们的英文，同时我们也可以看到我们的英文是可以正常访问的。我们通过阅读Requests的官方文档可以得知，我们的requests的编码方式默认并不是UTF-8，所以有的时候并不能很好的解码。我们可以访问之后重新编码，设置为UTF-8,然后获取我们所需要的信息

方法

更改返回值编码

这就是我们上文所描述的那种方法，我们的程序会根据网站的情况自动为你解码，这也比较适合多种语言和多种方式并存然后比较想要代码简洁的程序员。如果网站不符合的话，你可以在代码前面加上这一行代码，这一行代码的意思是，将我们获取到的文件编码成为UTF-8

res.encoding="utf-8"

这样子的话，我们的程序就可以正常的运行了
在这里插入图片描述

import requests

# 我们现在使用测试代码对百度进行模拟访问

res = requests.get('https://www.baidu.com')

# 重新更改我们的解码方式
res.encoding="utf-8"
# 输出状态码
print(res)
# 输出网页源代码
print(res.text)

更改编码方式

这一行代码就是直接更改我们的编码方式，使得文件可以解析我们的代码，那么在这里我们将我们的编码方式设置成为apparent_encoding

import requests

# 我们现在使用测试代码对百度进行模拟访问

res = requests.get('https://www.baidu.com')

# 重新更改我们的解码方式
res.encoding = res.apparent_encoding
# 输出状态码
print(res)
# 输出网页源代码
print(res.text)