Python 理解使用requests库爬取数据

最新推荐文章于 2024-01-29 08:08:08 发布

qq_42466270

最新推荐文章于 2024-01-29 08:08:08 发布

阅读量533

点赞数

分类专栏：自动化

本文链接：https://blog.csdn.net/qq_42466270/article/details/105496924

版权

3 篇文章 0 订阅

订阅专栏

requests库是爬取数据的第三方库，安装方法：

pip3 install requests

用法：

r = requests.get(url)

r 是返回的response对象，有五个最常用的属性：

属性	说明
r.status_code	HTTP返回的请求状态，200表示成功，400表示失败
r.text	HTTP响应内容的字符串形式，即url对应的页面内容
r.encoding	HTTPheader中猜测的响应内容编码方式
r.apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）
r.content	HTTP响应的二进制形式

r.encoding：若header中没有charset字段，则认为编码为ISO-8859-1

r.apparent_encoding：是根据返回的HTTP内容而不是响应头部分，分析出的编码方式

有时，爬取的数据会出现乱码，可能就是响应头中的没有charset字段，默认编码ISO-8859-1，这时候可以通过修改响应的编码方式来获取我们想要的数据：