关于requests的使用方法

用脑白金维持脑活力

已于 2024-09-02 15:02:47 修改

阅读量2.6k

点赞数 72

分类专栏：爬虫文章标签： python 爬虫

于 2024-08-30 02:27:08 首次发布

本文链接：https://blog.csdn.net/qq_52046196/article/details/141690872

版权

爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

我们从四个模块来讲解：

GET请求
POST请求
响应
高级用法（cookie,session等）

GET请求：

最基本的使用：

导入requests库
import requests
r = requests.get('https://www.httpbin.org/get')
将返回的内容以文本形式打印出来
print(r.text)
------------------输出结果-----------------------
{
  "args": {},
  "headers": {
    "Accept": "*/*",
    "Accept-Encoding": "gzip, deflate",
    "Host": "www.httpbin.org",
    "User-Agent": "python-requests/2.32.3",
    "X-Amzn-Trace-Id": "Root=1-66d0962b-11c2397e368fc6e415ecb1ee"        
  },
  "origin": "113.205.146.233",
  "url": "https://www.httpbin.org/get"
}

这就是我们最最基础的使用方法，也是后续用的很多的一个方法，一些复杂的爬虫无非是在这些基础的使用方法上进一步的发散，所以基础一定要学好。

添加请求参数：

import requests
data = {
    'name':'xhr',
    'age':24
}
r = requests.get('https://www.httpbin.org/get',params=data)
print(r.text)
----------------------------输出结果--------------------------
{
  "args": {
    "age": "24",
    "name": "xhr"
  },
  "headers": {
    "Accept": "*/*",
    "Accept-Encoding": "gzip, deflate",
    "Host": "www.httpbin.org",
    "User-Agent": "python-requests/2.32.3",
    "X-Amzn-Trace-Id": "Root=1-66d0981b-61b174ea7cc7b29716294455"        
  },
  "origin": "113.205.146.233",
  "url": "https://www.httpbin.org/get?name=xhr&age=24"
}

可以看到我们的响应的结果中已经有我们传入的数据了，其实这一步就等同于我们拼接了URL，即代码中输出结果中的‘url’的内容，需要注意一下，使用GET方法添加请求条件时，参数是params

抓取二进制数据：

import requests

r = requests.get('https://scrape.center/favicon.ico')
print(r.content)
print(r.text)

对于我们返回结果是图片，视频等，我们对于返回结果进行存储时，需要采用二进制即content方法来操作，可以试试text和content的打印结果的区别，由于打印的内容比较多，我这里就没有展示

添加请求头：

import requests

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36 Edg/128.0.0.0'
}
r = requests.get('https://www.baidu.com/',headers=headers)
print(r.text)

对于很多网站，是不会这么轻易的让你爬取到他的网站内容的，有时候会查看你发起的请求是否是正常的浏览器发送的请求，如果不是，就可能无法获取响应数据或者直接报错，所以我们添加请求头，来让服务器认为我们是正常的浏览器访问，也就是UA伪装。

在访问任何网站时，F12查看network（网络），找到请求标头，一般是请求标头的最后一行，可以看到User-Agent的内容，无论你访问任何网址，同一个浏览器，User-Agent的内容是一样的。

POST请求：

import requests

data = {
    'name':'xhr'
}
r = requests.post('https://www.httpbin.org/post',data=data)
print(r.text)
--------------------------输出结果-----------------------
{
  "args": {},
  "data": "",
  "files": {},
  "form": {
    "name": "xhr"
  },
  "headers": {
    "Accept": "*/*",
    "Accept-Encoding": "gzip, deflate",
    "Content-Length": "8",
    "Content-Type": "application/x-www-form-urlencoded",
    "Host": "www.httpbin.org",
    "User-Agent": "python-requests/2.32.3",
    "X-Amzn-Trace-Id": "Root=1-66d09ea6-7bb4169f0bdce166363f4ccb"        
  },
  "json": null,
  "origin": "113.205.146.233",
  "url": "https://www.httpbin.org/post"
}

POST请求的相关参数其实跟GET请求参数有很多相似的地方，我们可以对比一下学习。

POST请求参数的关键字是 data，GET请求参数的关键字是 params
POST请求的内容是在表单中即"form"体现，GET请求添加的参数内容具体是在"args"中体现

响应：

状态码：

import requests

r = requests.get('https://ssr1.scrape.center/')
exit() if not r.status_code == requests.codes.ok else print('Request Successfully')
--------------------------输出结果-------------------------
Request Successfully

状态码其实很简单，这里主要是介绍一下requests库的内置状态码查询对象requests.codes，能够使我们的状态码更加的直观。当然不止ok这一个条件码，具体还有很多，具体使用起来可以去查询一下。

高级用法：

文件上传：

import requests
files = {'file':open('从0开始/requests/favicon.ico','rb')}
r = requests.post('https://www.httpbin.org/post',files=files)
print(r.text)
--------------------输出结果----------------------
{
  "args": {},
  "data": "",
  "files": {
    "file": "data:application/octet-stream;base64,AAABAAEAICAAAAEAIACoEAAAFgAAACgAAAAgAAAAQAAAAAEAIAAAAAAAABAAABILAAASCwAAAAA..."},
  "form": {},
  "headers": {
    "Accept": "*/*",
    "Accept-Encoding": "gzip, deflate",
    "Content-Length": "4433",
    "Content-Type": "multipart/form-data; boundary=380ddd7af4b0861eaa420a1e5aeeafbc",
    "Host": "www.httpbin.org",
    "User-Agent": "python-requests/2.32.3",
    "X-Amzn-Trace-Id": "Root=1-66d0a1e1-1894392318198fe30f3a9689"        
  },
  "json": null,
  "origin": "113.205.146.233",
  "url": "https://www.httpbin.org/post"
}

POST 请求可以上传我们写入本地的文件，作为请求的参数，我这里就用之前获取的图片来传入的，可以在返回的结果中看到"file"中我们的图片内容是以二进制的形式传入的

Cookie设置

import requests
r = requests.get('https://www.baidu.com/')
# print(r.cookies)
for key,value in r.cookies.items():
     print(key + '=' + value)
----------------------输出结果----------------------
BDORZ=27315

获取相关的Cookie条目的名称和值，cookie具体的作用可以参考

爬虫中关于network中返回参数的各个含义https://blog.csdn.net/qq_52046196/article/details/141337128?spm=1001.2014.3001.5501

Session维持

实际上，无论我们用GET请求也好，POST请求也好，其本质都是单独开启了一次请求，假如我们请求了一个需要登录的网站，第一次登录成功后，我第二次请求获取登录后的相关数据，这是不行的，就如刚才所说，每次请求都是独立的，为了解决这个问题，引入了Session对象

用代码来演示实际的区别

import requests
requests.get('https://www.httpbin.org/cookies/set/number/1234567')
r = requests.get('https://www.httpbin.org/cookies')
print(r.text)
--------------------输出结果--------------------------
{
  "cookies": {}
}
--------------------------------------------------------
import requests
s = requests.Session()
s.get('https://www.httpbin.org/cookies/set/number/1234567')
r = s.get('https://www.httpbin.org/cookies')
print(r.text)
--------------------输出结果--------------------------
{
  "cookies": {
    "number": "1234567"
  }
}

SSL证书验证

有时我们访问网站时，可能会有警告

这是由于该网站没有设置好HTTPS证书或者是网站的HTTPS证书可能不被CA机构认可，那么我们利用requests库来请求这类网站时，就会报错SSLError ，为了解决这个问题，我们引入了verify参数

import requests
r = requests.get('https://ssr2.scrape.center/',verify=False)
print(r.status_code)
--------------------输出结果------------------
C:\Users\46851\AppData\Local\Programs\Python\Python310\lib\site-packages\urllib3\connectionpool.py:1099: InsecureRequestWarning: Unverified HTTPS request is being made to host 'ssr2.scrape.center'. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#tls-warnings
  warnings.warn(
200

verify参数的作用是控制是否验证证书，False->不验证证书，True->验证证书。此外还需要注意一点，如果我们不设置这个参数，那么默认是会自动验证证书。

有了这个参数我们就可以很好的解决了浏览网站提示“您的连接不是私密连接”下无法获取信息的问题。

logging日志

刚才的输出结果中虽然结果是可以正确的打印出来，可是我们结果中有警告，具体是建议我们设置证书，看着挺烦的，所以我们可以通过捕获警告的方式来忽略警告

import requests
import logging
logging.captureWarnings(True)
r = requests.get('https://ssr2.scrape.center/',verify=False)
print(r.status_code)
------------------输出结果----------------
200

我们也可以配置日志记录器来让我们的代码错误信息更规范，层级更明确

import requests
import logging
# 配置日志记录器
logging.basicConfig(level=logging.WARNING, format='%(asctime)s - %(levelname)s - %(message)s')
logging.captureWarnings(True)
r = requests.get('https://ssr2.scrape.center/',verify=False)
print(r.status_code)
------------------输出结果-------------------
2024-08-30 02:13:52,749 - WARNING - C:\Users\46851\AppData\Local\Programs\Python\Python310\lib\site-packages\urllib3\connectionpool.py:1099: InsecureRequestWarning: Unverified HTTPS request is being made to host 'ssr2.scrape.center'. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#tls-warnings
  warnings.warn(

200

身份认证

有时我们登录网站时需要账号密码才能进入网站获取信息，为了解决这个问题，requests库引入了auth参数

import requests
 
r = requests.get('https://ssr3.scrape.center/',auth=('admin','admin'))
if r.status_code == requests.codes.ok:
        print('Request Successfully')
--------------------输出结果----------------------
Request Successfully

此代码中，返回值为登录后的网站信息

代理

import requests
proxies = {
    'http':'http://10.10.10.10:1080',
    'https':'http://10.10.10.10:1080'
}
requests.get('https://www.httpbin.org/get',proxies=proxies)

这里展示的代理是失效的，仅作为案例参考具体的使用方法，可以去相关代理网站中去获取有效的代理