python+requests——响应内容以及设置编码格式

最新推荐文章于 2024-07-27 11:46:57 发布

qq_36606793

最新推荐文章于 2024-07-27 11:46:57 发布

阅读量6.7k

点赞数 1

分类专栏： python爬虫文章标签：爬虫

原文链接：https://www.cnblogs.com/xiaobaibailongma/p/12339895.html

版权

python爬虫专栏收录该内容

18 篇文章 2 订阅

订阅专栏

响应内容
我们能读取服务器响应的内容。再次以 GitHub 时间线为例：

 import requests
 r = requests.get('https://api.github.com/events')
 r.text
u'[{"repository":{"open_issues":0,"url":"https://github.com/...

Requests 会自动解码来自服务器的内容。大多数 unicode 字符集都能被无缝地解码。
请求发出后，Requests 会基于 HTTP 头部对响应的编码作出有根据的推测。
当你访问 r.text 之时，Requests 会使用其推测的文本编码。你可以找出 Requests 使用了什么编码，并且能够使用 r.encoding 属性来改变它：

 r.encoding                     #返回编码格式 'utf-8'                            
 r.encoding = 'ISO-8859-1'     #设置编码格式

如果你改变了编码，每当你访问 r.text ，Request 都将会使用 r.encoding 的新值。
你可能希望在使用特殊逻辑计算出文本的编码的情况下来修改编码。
比如 HTTP 和 XML 自身可以指定编码。这样的话，你应该使用 r.content 来找到编码，然后设置 r.encoding 为相应的编码。这样就能使用正确的编码解析 r.text 了。

import requests
response = requests.get("https://www.baidu.com")
print(response.url)                         #返回请求的url：https://www.baidu.com/
print(response.status_code)                #获取响应状态码：200
print(response.encoding)                    #返回当前的编码格式：ISO-8859-1
response.encoding = 'utf-8'                 #设置编码格式
print(response.encoding)                    #返回：utf-8   说明上一步设置成功
print(response.content)       #返回：b'<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8>
                               
                                      <meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer>
执行结果：
https://www.baidu.com/
200
ISO-8859-1
utf-8
b'<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8>

<meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer>

=============================================================================================================================

qq_36606793

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python+requests——响应内容以及设置编码格式

响应内容我们能读取服务器响应的内容。再次以 GitHub 时间线为例： import requests r = requests.get('https://api.github.com/events') r.textu'[{"repository":{"open_issues":0,"url":"https://github.com/...Requests 会自动解码来自服务器的内容。大多数 unicode 字符集都能被无缝地解码。请求发出后，Requests 会基于 HTTP 头部对响应的
复制链接

扫一扫

专栏目录