Requests库：get方法，两大属性

最新推荐文章于 2024-08-09 23:34:20 发布

aite_

最新推荐文章于 2024-08-09 23:34:20 发布

阅读量1.1w

点赞数 6

分类专栏： Python网络爬虫信息提取

本文链接：https://blog.csdn.net/qq_39227338/article/details/79870552

版权

Python网络爬虫信息提取专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Requests库

第一次学习Python，进行静态网页爬取

安装Python环境，在控制台窗口运行python语句，显示

我的版本是3.7.0a2 版本

在网页信息获取中最重要的一个库就是request，在观看学习教程的时候，讲解是需要在点击打开链接上面重新安装，我再检测自己的Python库的时候发现，库里已经存在request。

所以继续静态网页爬取，从最简单的开始

import requests
r = requests.get("http://www.baidu.com")
r.status_code
print(r.status_code)
r.encoding = 'utf-8'
print(r.text)

这是在Pycharm中运行的 .py程序

r.status_code用来表示网页状态码（摘自百度百科：HTTP状态码(HTTP Status Code)是用以表示网页服务器HTTP响应状态的3位数字代码。）

也可以在控制台窗口中运行，utf-8解决了爬取网页的乱码问题。

import requests
r = requests.get("http://www.baidu.com")
r.status_code
r.encoding = 'utf-8'
r.text

Request的get方法

获得一个网页最简单直接的方法就是 r = requests.get(url) ，向服务器请求资源。

完整的requests（url, params=None, **kwargs）：

url -> 拟获取页面的url链接

params -> url中的额外参数，字典或字节流格式

**kwargs -> 12个控制访问的参数

response的对象属性

requests库中有两个重要的对象属性，Request以及Response。

在这里可以用type(r)来检测r的类型，结果得出他是一个response类型的。

我自己对于这一部分的理解就是，你用来对网页进行请求， r 是网页对你进行对回应。

r.headers
#http响应内容的头部内容，来返回get请求获得网页的头部信息。
r.status_code
#http请求的返回状态，200表示连接成功，404表示连接失败
r.text
#http响应内容的字符串形式，url对应的页面内容
r.encoding
#从HTTP header中猜测的响应内容编码方式
r.apparent_encoding
#从内容分析出的响应内容的编码方式（备选编码方式）
r.content
#HTTP响应内容的二进制形式