关于requests的使用方法

我们从四个模块来讲解:

  • GET请求
  • POST请求
  • 响应
  • 高级用法(cookie,session等)

GET请求:

  • 最基本的使用:
    导入requests库
    import requests
    r = requests.get('https://www.httpbin.org/get')
    将返回的内容以文本形式打印出来
    print(r.text)
    ------------------输出结果-----------------------
    {
      "args": {},
      "headers": {
        "Accept": "*/*",
        "Accept-Encoding": "gzip, deflate",
        "Host": "www.httpbin.org",
        "User-Agent": "python-requests/2.32.3",
        "X-Amzn-Trace-Id": "Root=1-66d0962b-11c2397e368fc6e415ecb1ee"        
      },
      "origin": "113.205.146.233",
      "url": "https://www.httpbin.org/get"
    }

    这就是我们最最基础的使用方法,也是后续用的很多的一个方法,一些复杂的爬虫无非是在这些基础的使用方法上进一步的发散,所以基础一定要学好。

  • 添加请求参数:

import requests
data = {
    'name':'xhr',
    'age':24
}
r = requests.get('https://www.httpbin.org/get',params=data)
print(r.text)
----------------------------输出结果--------------------------
{
  "args": {
    "age": "24",
    "name": "xhr"
  },
  "headers": {
    "Accept": "*/*",
    "Accept-Encoding": "gzip, deflate",
    "Host": "www.httpbin.org",
    "User-Agent": "python-requests/2.32.3",
    "X-Amzn-Trace-Id": "Root=1-66d0981b-61b174ea7cc7b29716294455"        
  },
  "origin": "113.205.146.233",
  "url": "https://www.httpbin.org/get?name=xhr&age=24"
}

可以看到我们的响应的结果中已经有我们传入的数据了,其实这一步就等同于我们拼接了URL,即代码中输出结果中的‘url’的内容,需要注意一下,使用GET方法添加请求条件时,参数是params

  • 抓取二进制数据:
import requests

r = requests.get('https://scrape.center/favicon.ico')
print(r.content)
print(r.text)

对于我们返回结果是图片,视频等,我们对于返回结果进行存储时,需要采用二进制即content方法来操作,可以试试textcontent的打印结果的区别,由于打印的内容比较多,我这里就没有展示

  • 添加请求头:
import requests

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36 Edg/128.0.0.0'
}
r = requests.get('https://www.baidu.com/',headers=headers)
print(r.text)

 对于很多网站,是不会这么轻易的让你爬取到他的网站内容的,有时候会查看你发起的请求是否是正常的浏览器发送的请求,如果不是,就可能无法获取响应数据或者直接报错,所以我们添加请求头,来让服务器认为我们是正常的浏览器访问,也就是UA伪装。

在访问任何网站时,F12查看network(网络),找到请求标头,一般是请求标头的最后一行,可以看到User-Agent的内容,无论你访问任何网址,同一个浏览器,User-Agent的内容是一样的。

POST请求:

import requests

data = {
    'name':'xhr'
}
r = requests.post('https://www.httpbin.org/post',data=data)
print(r.text)
--------------------------输出结果-----------------------
{
  "args": {},
  "data": "",
  "files": {},
  "form": {
    "name": "xhr"
  },
  "headers": {
    "Accept": "*/*",
    "Accept-Encoding": "gzip, deflate",
    "Content-Length": "8",
    "Content-Type": "application/x-www-form-urlencoded",
    "Host": "www.httpbin.org",
    "User-Agent": "python-requests/2.32.3",
    "X-Amzn-Trace-Id": "Root=1-66d09ea6-7bb4169f0bdce166363f4ccb"        
  },
  "json": null,
  "origin": "113.205.146.233",
  "url": "https://www.httpbin.org/post"
}

POST请求的相关参数其实跟GET请求参数有很多相似的地方,我们可以对比一下学习。

  • POST请求参数的关键字是 data,GET请求参数的关键字是 params
  • POST请求的内容是在表单中即"form"体现,GET请求添加的参数内容具体是在"args"中体现

响应: 

  • 状态码:
import requests

r = requests.get('https://ssr1.scrape.center/')
exit() if not r.status_code == requests.codes.ok else print('Request Successfully')
--------------------------输出结果-------------------------
Request Successfully

状态码其实很简单,这里主要是介绍一下requests库的内置状态码查询对象requests.codes,能够使我们的状态码更加的直观。当然不止ok这一个条件码,具体还有很多,具体使用起来可以去查询一下。

高级用法:

  • 文件上传:
import requests
files = {'file':open('从0开始/requests/favicon.ico','rb')}
r = requests.post('https://www.httpbin.org/post',files=files)
print(r.text)
--------------------输出结果----------------------
{
  "args": {},
  "data": "",
  "files": {
    "file": "data:application/octet-stream;base64,AAABAAEAICAAAAEAIACoEAAAFgAAACgAAAAgAAAAQAAAAAEAIAAAAAAAABAAABILAAASCwAAAAA..."},
  "form": {},
  "headers": {
    "Accept": "*/*",
    "Accept-Encoding": "gzip, deflate",
    "Content-Length": "4433",
    "Content-Type": "multipart/form-data; boundary=380ddd7af4b0861eaa420a1e5aeeafbc",
    "Host": "www.httpbin.org",
    "User-Agent": "python-requests/2.32.3",
    "X-Amzn-Trace-Id": "Root=1-66d0a1e1-1894392318198fe30f3a9689"        
  },
  "json": null,
  "origin": "113.205.146.233",
  "url": "https://www.httpbin.org/post"
}

POST 请求可以上传我们写入本地的文件,作为请求的参数,我这里就用之前获取的图片来传入的,可以在返回的结果中看到"file"中我们的图片内容是以二进制的形式传入的

  • Cookie设置
import requests
r = requests.get('https://www.baidu.com/')
# print(r.cookies)
for key,value in r.cookies.items():
     print(key + '=' + value)
----------------------输出结果----------------------
BDORZ=27315

获取相关的Cookie条目的名称和值,cookie具体的作用可以参考

爬虫中关于network中返回参数的各个含义icon-default.png?t=N7T8https://blog.csdn.net/qq_52046196/article/details/141337128?spm=1001.2014.3001.5501

  • Session维持

实际上,无论我们用GET请求也好,POST请求也好,其本质都是单独开启了一次请求,假如我们请求了一个需要登录的网站,第一次登录成功后,我第二次请求获取登录后的相关数据,这是不行的,就如刚才所说,每次请求都是独立的,为了解决这个问题,引入了Session对象

用代码来演示实际的区别

import requests
requests.get('https://www.httpbin.org/cookies/set/number/1234567')
r = requests.get('https://www.httpbin.org/cookies')
print(r.text)
--------------------输出结果--------------------------
{
  "cookies": {}
}
--------------------------------------------------------
import requests
s = requests.Session()
s.get('https://www.httpbin.org/cookies/set/number/1234567')
r = s.get('https://www.httpbin.org/cookies')
print(r.text)
--------------------输出结果--------------------------
{
  "cookies": {
    "number": "1234567"
  }
}
  • SSL证书验证

有时我们访问网站时,可能会有警告

这是由于该网站没有设置好HTTPS证书或者是网站的HTTPS证书可能不被CA机构认可,那么我们利用requests库来请求这类网站时,就会报错SSLError ,为了解决这个问题,我们引入了verify参数

import requests
r = requests.get('https://ssr2.scrape.center/',verify=False)
print(r.status_code)
--------------------输出结果------------------
C:\Users\46851\AppData\Local\Programs\Python\Python310\lib\site-packages\urllib3\connectionpool.py:1099: InsecureRequestWarning: Unverified HTTPS request is being made to host 'ssr2.scrape.center'. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#tls-warnings
  warnings.warn(
200

verify参数的作用是控制是否验证证书,False->不验证证书,True->验证证书。此外还需要注意一点,如果我们不设置这个参数,那么默认是会自动验证证书。

有了这个参数我们就可以很好的解决了浏览网站提示“您的连接不是私密连接”下无法获取信息的问题。

  • logging日志

刚才的输出结果中虽然结果是可以正确的打印出来,可是我们结果中有警告,具体是建议我们设置证书,看着挺烦的,所以我们可以通过捕获警告的方式来忽略警告

import requests
import logging
logging.captureWarnings(True)
r = requests.get('https://ssr2.scrape.center/',verify=False)
print(r.status_code)
------------------输出结果----------------
200

我们也可以配置日志记录器来让我们的代码错误信息更规范,层级更明确

import requests
import logging
# 配置日志记录器
logging.basicConfig(level=logging.WARNING, format='%(asctime)s - %(levelname)s - %(message)s')
logging.captureWarnings(True)
r = requests.get('https://ssr2.scrape.center/',verify=False)
print(r.status_code)
------------------输出结果-------------------
2024-08-30 02:13:52,749 - WARNING - C:\Users\46851\AppData\Local\Programs\Python\Python310\lib\site-packages\urllib3\connectionpool.py:1099: InsecureRequestWarning: Unverified HTTPS request is being made to host 'ssr2.scrape.center'. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#tls-warnings
  warnings.warn(

200
  • 身份认证

有时我们登录网站时需要账号密码才能进入网站获取信息,为了解决这个问题,requests库引入了auth参数

import requests
 
r = requests.get('https://ssr3.scrape.center/',auth=('admin','admin'))
if r.status_code == requests.codes.ok:
        print('Request Successfully')
--------------------输出结果----------------------
Request Successfully

此代码中,返回值为登录后的网站信息

  • 代理

import requests
proxies = {
    'http':'http://10.10.10.10:1080',
    'https':'http://10.10.10.10:1080'
}
requests.get('https://www.httpbin.org/get',proxies=proxies)

这里展示的代理是失效的,仅作为案例参考具体的使用方法,可以去相关代理网站中去获取有效的代理

### 回答1: Selenium 的 `get_cookies()` 方法返回的是一个 Cookie 列表,每个 Cookie一个字典类型,包含了 Cookie 的各种属性,如 `name`、`value`、`domain`、`path`、`expiry` 等。如果你想将 Selenium 获取到的 Cookie 转换为 requests 使用Cookie 字典类型,可以使用以下代码: ```python import requests from selenium import webdriver # 启动浏览器,访问网站登录等操作 driver = webdriver.Chrome() driver.get('http://example.com') # ... # 获取浏览器中的 Cookie cookies = driver.get_cookies() # 将浏览器中的 Cookie 转换为 requests 使用Cookie 字典类型 cookie_dict = {} for cookie in cookies: cookie_dict[cookie['name']] = cookie['value'] # 使用 requests 发送请求 response = requests.get('http://example.com', cookies=cookie_dict) ``` 在上面的例子中,`cookies` 变量是一个 Cookie 列表,通过遍历列表将每个 Cookie 转换为字典类型,并将其添加到 `cookie_dict` 字典中。最后,将 `cookie_dict` 字典作为 `cookies` 参数传递给 `requests.get()` 方法即可。 ### 回答2: selenium.get_cookies()方法是用于获取当前浏览器页面中的所有cookie信息,而不是用于requests。 当我们使用Selenium来进行自动化测试时,可以使用get_cookies()方法来获取当前页面中的所有cookie。这些cookie信息可以包括名称、值、域名、路径、过期时间等。 而当我们使用requests来发送HTTP请求时,我们可以通过传递cookie参数来模拟浏览器的会话状态。这可以通过创建一个cookie字典,包含在请求header中来实现。requests提供了一个cookies参数,用于在请求中传递cookie信息。 相比于Selenium的get_cookies()方法,对于requests来说,我们可以使用requests.get()或requests.post()方法来发送请求,并将cookie作为参数传递给这些方法,使得我们可以在代码中模拟登录、保持会话等操作。 要注意的是,Selenium和requests是两种不同的工具,用途也有所不同。Selenium主要用于自动化测试,而requests则是一个发送HTTP请求的第三方。因此,selenium.get_cookies()方法无法直接用于requests。如果我们希望通过requests来模拟浏览器的会话状态,我们需要手动将Selenium中获取的cookie信息转化为requests可用的格式,并将其作为参数传递给requests相关的方法。 ### 回答3: selenium.getcookies()函数用于获取当前页面的cookie并返回一个字典。它可以用于在使用requests发送HTTP请求时,将获取的cookie添加到请求头中,以维持登录状态或其他需要cookie的操作。 使用selenium.getcookies()的步骤如下: 1. 首先,通过selenium的webdriver打开一个网页,登录并获得所需的cookie。 2. 使用getcookies()函数获取当前页面的cookie,返回一个字典。 3. 导入requests,并创建一个会话对象session来发送HTTP请求。 4. 使用session对象的cookies属性来将获取的cookie添加到请求头中。 下面是一个简单的示例代码: ```python from selenium import webdriver import requests # 使用selenium webdriver打开一个网页,并登录获取cookie driver = webdriver.Chrome() driver.get("https://example.com") # 假设已经登录了获取到了cookie # 获取当前页面的cookie cookies = driver.get_cookies() # 使用requests发送HTTP请求 session = requests.Session() # 将获取的cookie添加到请求头中 for cookie in cookies: session.cookies.set(cookie['name'], cookie['value']) # 发送GET请求 response = session.get("https://example.com") print(response.text) # 关闭driver driver.close() ``` 这样,在使用requests发送GET请求时,会自动带上cookie信息,达到维持登录状态的目的。注意在实际使用需要根据具体情况进行适当的修改。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值