Requests库介绍_requests库是用来干什么的-CSDN博客

本文链接：https://blog.csdn.net/cc_park/article/details/103819445

Requests库安装

1、使用管理员打开cmd，输入pip install requests
2、可以使用pip list 查看已经安装了库里面是否已经有了requests库，也是到IDE里面直接引用，看是否可以正常引用

Requests库的7个主要方法

方法	说明
requests.request()	构造一个请求，支撑以下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应于HTTP的GET
requests.head()	获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post()	向HTML网页提交post请求的方法，对应HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()	向HTML页面提交删除请求，对应于HTTP的DELETE

Requests对象的5个属性

属性	说明
r.ststus_code	HTTP请求的返回状态，200表示连接成功，404连接失败
r.text	HTTP响应内容的字符串形式，既，url对应的页面内容
r.encoding	从HTTP head中猜测的响应内容编码方式
r.apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）
r.content	HTTP响应内容的二进制形式

理解Requests库的异常

异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常

爬取网页的通用代码框架

import requests

def getHTMLText (url):
    try:
        r = requests.get(url,timeout = 30)
        r.raise_for_status()  #如果状态不是200,引发HTTPError异常
        r.encoding = r.apparent_encoding #将apparent_encoding替代encoding，使返回解码的格式是正常的
        return r.text
    except:
        return "产生异常"

if __name__ == "__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

方法介绍

1、get()
r = requests.get(url,params=None,**kwargs)
url：拟获取页面的url连接
params：url中额外参数，字典或字节流格式，可选
**kwargs：12个控制访问的参数

实例：

import requests

r = requests.get("http://www.baidu.com")
print(r.status_code)

返回结果：
200

2、post()
requests.post(url,data=None,json=None,**kwargs)
url：拟更新页面的url链接
data：字典、字节序列或文件，request的内容
json：json格式的数据，request的内容
**kwargs：11个控制访问的参数
例1：

import requests

payload = {"key1":"value1","key2":"value2"}
r = requests.post("http://httpbin.org/post",data=payload)
print(r.text)

结果：
{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "key1": "value1", 
    "key2": "value2"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "23", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.22.0"
  }, 
  "json": null, 
  "origin": "183.40.12.54, 183.40.12.54", 
  "url": "https://httpbin.org/post"

有结果可以看得出，向URL POST一个字典，自动编码为form（表单）

例2：

import requests


r = requests.post("http://httpbin.org/post",data="ABC")
print(r.text)

结果：
{
  "args": {}, 
  "data": "ABC", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "3", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.22.0"
  }, 
  "json": null, 
  "origin": "183.40.12.54, 183.40.12.54", 
  "url": "https://httpbin.org/post"

有结果可以看得出，向URL POST一个字典，自动编码为data

3、head()
requests.head（url,**kwargs）
url：拟获取页面的url链接
**kwargs：13个控制访问的参数

import requests


r = requests.head("http://httpbin.org/get")
print(r.headers)

结果：
{'Access-Control-Allow-Credentials': 'true', 'Access-Control-Allow-Origin': '*', 'Content-Encoding': 'gzip', 'Content-Type': 'application/json', 'Date': 'Fri, 03 Jan 2020 08:35:11 GMT', 'Referrer-Policy': 'no-referrer-when-downgrade', 'Server': 'nginx', 'X-Content-Type-Options': 'nosniff', 'X-Frame-Options': 'DENY', 'X-XSS-Protection': '1; mode=block', 'Connection': 'keep-alive'}

4、put()
requests.put（url,data=None,**kwargs）
url：拟获取页面的url链接
data：字典、字节序列或文件，request的内容
**kwargs：12个控制访问的参数

import requests

payload = {"key1":"value1","key2":"value2"}
r = requests.put("http://httpbin.org/put",data=payload)
print(r.text)

结果：
{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "key1": "value1", 
    "key2": "value2"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "23", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.22.0"
  }, 
  "json": null, 
  "origin": "183.40.12.54, 183.40.12.54", 
  "url": "https://httpbin.org/put"
}

5、patch
request.patch(url,data=None,**kwargs)
url：拟获取页面的url链接
data：字典、字节序列或文件，request的内容
**kwargs：12个控制访问的参数
6、delete
request.delete(url,**kwargs)
url：拟获取页面的url链接
**kwargs：13个控制访问的参数

Requests库主要方法解析

requests.request(method,url,**kwargs)
method：请求方式，对应get/put等7种
url：获取页面的url连接
**kwargs：控制访问的参数，共13个

参数解释：
params：字典或字节序列，作为参数增加到url中
data：字典、字节序列或文件对象，作为request的内容
json：json格式的数据，作为request的内容
headers：字典，HTTP定制头
cookies：字典或cookiesjar，request中的cookie
auth：元组，支持http认证功能
files：字典类型，传输认证功能
timeout：设定超时时间，秒为单位
proxies：字典类型，设定访问代理服务器，可以增加登录认证
allow_redirects：True/False，默认为True，重定向开关
stream：True/False，默认为True，获取内容立即下载开关
verify：True/False，默认为True，认证SSL证书开关
cert：本地SSL证书路径

r = requests.request(“GET”,url,**kwargs）
r = requests.request(“HEAD”,url,**kwargs）
r = requests.request(“POST”,url,**kwargs）
r = requests.request(“PUT”,url,**kwargs）
r = requests.request(“PATCH”,url,**kwargs）
r = requests.request(“DELETE”,url,**kwargs）
r = requests.request(“OPTIONS”,url,**kwargs）

HTTP协议

HTTP(Hypertext Transfer Protocol)：超文本传输协议
http是一个基于“请求与相应”模式的、无状态的应用层协议

URL格式：http://host[:port][path]
host：合法的Internet主机域名或IP地址
port：端口号，缺省端口为80
path：请求资源的路径

HTTP URL的理解：URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源

HTTP协议对资源的操作

方法	说明
GET	请求获取URL位置的资源
HEAD	请求获取URL位置资源的响应消息报告，既获得该资源的头部信息
POST	请求向URL位置的资源后附加新的数据
PUT	请求向URL位置存储一个资源，覆盖原URL位置的资源
PATCH	请求局部更新URL位置的资源，既改变该处资源的部分内容
DELETE	请求删除URL位置存储的资源