在很多的时候,一些朋友们都会遇到这样的情况,我们可以访问一个网页,但是却无法获取网站上面的一些内容,而且那些内容还是一些重要的信息,必须要获取,那么这种情况我们该怎么办呢?
百度实例
编写代码
在我们的编辑器中输入以下的代码
Sublime显示界面
Pycharm显示界面
Turtle显示界面
所以我们可以看出,这并不是我们的编辑器的问题,而是我们的Python的模块当中是有问题的
分析
我们可以看到,我们访问不出来的内容全部都是我们的中文内容,而不是我们的英文,同时我们也可以看到我们的英文是可以正常访问的。我们通过阅读Requests的官方文档可以得知,我们的requests的编码方式默认并不是UTF-8,所以有的时候并不能很好的解码。我们可以访问之后重新编码,设置为UTF-8,然后获取我们所需要的信息
方法
更改返回值编码
这就是我们上文所描述的那种方法,我们的程序会根据网站的情况自动为你解码,这也比较适合多种语言和多种方式并存然后比较想要代码简洁的程序员。如果网站不符合的话,你可以在代码前面加上这一行代码,这一行代码的意思是,将我们获取到的文件编码成为UTF-8
res.encoding="utf-8"
这样子的话,我们的程序就可以正常的运行了
import requests
# 我们现在使用测试代码对百度进行模拟访问
res = requests.get('https://www.baidu.com')
# 重新更改我们的解码方式
res.encoding="utf-8"
# 输出状态码
print(res)
# 输出网页源代码
print(res.text)
更改编码方式
这一行代码就是直接更改我们的编码方式,使得文件可以解析我们的代码,那么在这里我们将我们的编码方式设置成为apparent_encoding
import requests
# 我们现在使用测试代码对百度进行模拟访问
res = requests.get('https://www.baidu.com')
# 重新更改我们的解码方式
res.encoding = res.apparent_encoding
# 输出状态码
print(res)
# 输出网页源代码
print(res.text)
我们同样可以看到,我们的程序成功运行了
其他编码方式
我们在Python中除了经常使用UTF-8,我们还可能会使用以下的编码方式
-
UTF-16
就不多说了,完全乱码 -
GBK
也是不行的,有乱码 -
GBK2
在英文和中文的网站,我们可以使用GBK2来进行编码 -
ASCLL
这是一种编码方式,这一般用于小型机的信息传输
- Unicode
Unicode是一个很大的集合,现在的规模可以容纳100多万个符号。每个符号的编码都不一样,比如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,“汉”这个字的Unicode编码是U+6C49。
转载声明
如需转载,请附上原文链接:Requests使用时踩过的坑(一):当使用Text获取网页源代码时乱码了怎么办(requests常见的几种解码方式和常见的编码方式)