requests模块的使用

最新推荐文章于 2023-08-21 17:36:00 发布

后端技术架构

最新推荐文章于 2023-08-21 17:36:00 发布

阅读量313

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/hzlnice/article/details/83715251

版权

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

response的常用属性：

response.text 响应体 str类型
respones.content 响应体 bytes类型
response.status_code 响应状态码
response.request.headers 响应对应的请求头
response.headers 响应头
response.request.cookies 响应对应请求的cookie
response.cookies 响应的cookie（经过了set-cookie动作）

response.text 和response.content的区别

response.text
- 类型：str
- 解码类型： requests模块自动根据HTTP 头部对响应的编码作出有根据的推测，推测的文本编码
- 如何修改编码方式：response.encoding=”gbk”
response.content
- 类型：bytes
- 解码类型：没有指定
- 如何修改编码方式：response.content.deocde(“utf8”)

获取网页源码的通用方式：

response.content.decode()
response.content.decode("GBK")
response.text

以上三种方法从前往后尝试，能够100%的解决所有网页解码的问题

所以：更推荐使用response.content.deocde()的方式获取响应的html页面

发送带header的请求：

header的形式：字典

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

用法

requests.get(url, headers=headers)

发送带参数的请求

请求参数的形式：字典

kw = {'wd':'长城'}

请求参数的用法

requests.get(url,params=kw)

requests发送post请求语法：

用法：

  response = requests.post("http://www.baidu.com/", \
  data = data,headers=headers)

data 的形式：字典

使用代理

正向代理：对于浏览器知道服务器的真实地址，例如VPN
反向代理：浏览器不知道服务器的真实地址，例如nginx

代理的使用

用法：

  requests.get("http://www.baidu.com",  proxies = proxies)

proxies的形式：字典

例如：

  proxies = { 
      "http": "http://12.34.56.79:9527", 
      "https": "https://12.34.56.79:9527", 
      }

代理IP的分类

根据代理ip的匿名程度，代理IP可以分为下面四类：

透明代理(Transparent Proxy)：透明代理虽然可以直接“隐藏”你的IP地址，但是还是可以查到你是谁。

匿名代理(Anonymous Proxy)：使用匿名代理，别人只能知道你用了代理，无法知道你是谁。

高匿代理(Elite proxy或High Anonymity Proxy)：高匿代理让别人根本无法发现你是在用代理，所以是最好的选择。

不同分类的代理，在使用的时候需要根据抓取网站的协议来选择

http代理
https代理
socket代理等

requests处理cookie的方法

使用requests处理cookie有三种方法：

headers中cookie的位置

headers中的cookie：

cookie字符串放在headers中
把cookie字典放传给请求方法的cookies参数接收
使用requests提供的session模块
使用分号(;)隔开
分号两边的类似a=b形式的表示一条cookie
a=b中，a表示键（name），b表示值（value）
在headers中仅仅使用了cookie的name和value

在headers中使用cookie

复制浏览器中的cookie到代码中使用

headers = {
"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
"Cookie":" Pycharm-26c2d973=dbb9b300-2483-478f-9f5a-16ca4580177e; Hm_lvt_98b9d8c2fd6608d564bf2ac2ae642948=1512607763; Pycharm-26c2d974=f645329f-338e-486c-82c2-29e2a0205c74; _xsrf=2|d1a3d8ea|c5b07851cbce048bd5453846445de19d|1522379036"}

requests.get(url,headers=headers)

使用cookies参数接收字典形式的cookie

cookies的形式：字典

cookies = {"cookie的name":"cookie的value"}

使用方法：

requests.get(url,headers=headers,cookies=cookie_dict}

使用requests.session处理cookie

requests 提供了一个叫做session类，来实现客户端和服务端的会话保持

会话保持有两个内涵：

保存cookie，下一次请求会带上前一次的cookie
实现和服务端的长连接，加快请求速度

使用方法

session = requests.session()
response = session.get(url,headers)

session实例在请求了一个网站后，对方服务器设置在本地的cookie会保存在session中，下一次再使用session请求对方服务器的时候，会带上前一次的cookie

requests中cookirJar的处理方法

requests处理证书错误

response.cookies是CookieJar类型
使用requests.utils.dict_from_cookiejar，能够实现把cookiejar对象转化为字典

代码中发起请求的效果

import requests

url = "https://www.12306.cn/mormhweb/"
response = requests.get(url)

返回证书错误，如下：

ssl.CertificateError ...

解决方案

为了在代码中能够正常的请求，我们修改添加一个参数

import requests

url = "https://www.12306.cn/mormhweb/"

# requests.packages.urllib3.disable_warnings() # 不显示安全提示 

response = requests.get(url,verify=False)

超时参数的使用

超时参数使用方法如下：

response = requests.get(url,timeout=3)

通过添加timeout参数，能够保证在3秒钟内返回响应，否则会报错

retrying模块的使用

retrying模块的地址：https://pypi.org/project/retrying/

retrying 模块的使用

使用retrying模块提供的retry模块
通过装饰器的方式使用，让被装饰的函数反复执行
retry中可以传入参数stop_max_attempt_number,让函数报错后继续重新执行，达到最大执行次数的上限，如果每次都报错，整个函数报错，如果中间有一个成功，程序继续往后执行

retrying和requests的简单封装

实现一个发送请求的函数，每次爬虫中直接调用该函数即可实现发送请求，在其中

使用timeout实现超时报错
使用retrying模块实现重试

代码参考:

# parse.py
import requests
from retrying import retry

headers = {}

#最大重试3次，3次全部报错，才会报错
@retry(stop_max_attempt_number=3) 
def _parse_url(url)
    #超时的时候回报错并重试
    response = requests.get(url, headers=headers, timeout=3) 
    #状态码不是200，也会报错并重试
    assert response.status_code == 200
    return response


def parse_url(url)
    try: #进行异常捕获
        response = _parse_url(url)
    except Exception as e:
        print(e)
        #报错返回None
        response = None
    return response

后端技术架构

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
requests模块的使用

response的常用属性：response.text 响应体 str类型 respones.content 响应体 bytes类型 response.status_code 响应状态码 response.request.headers 响应对应的请求头 response.headers 响应头 response.request.cookies 响应对应请求的cookie resp...
复制链接

扫一扫