request高阶应用

最新推荐文章于 2023-03-21 16:29:45 发布

jia___qi

最新推荐文章于 2023-03-21 16:29:45 发布

阅读量247

点赞数 2

分类专栏： requests高阶应用文章标签： python

本文链接：https://blog.csdn.net/jia___qi/article/details/108435688

版权

requests高阶应用专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文件处理

import requests
#打开文件，注意要以rb形式打开
f = open('chn.jpg','rb')
files = {
    'file':f
}
res = requests.post(url='***',files = files)

会话维持

from requests import Session
#1.实例化一个对象
session = Session()
#2.url
url = '*****'
#3.session.get()或者session.post(url=url.headers=headers)
res = session.post(url=url.headers=headers)

`ssl`证书验证

https是http的安全版本，HTTPS在http的基础上多了一个ssl安全套接层

requests提供了证书验证的功能，当发起HTTP请求时，模块会检查SSL证书，但检查的行为可以用verify参数来控制

添加了一个参数verify=false --->不检查ssl证书,如果等于True，则检查SSL证书

#ssl证书验证
抛出异常
sslError
#添加一个verify=false参数，禁止证书验证
import requests
url = '******'
#阻止抛出警告
requests.packages.urllib3.disable_warinings()

res = requests.get(url=url,verify=false)

代理设置

代理IP是指在请求的过程中使用非本机ip进行请求，避免大数据量频繁请求的过程中出现IP封禁，限制数据的爬取

透明代理ip：服务器知道你使用了代理，服务器能够获取爬虫真实的ip

匿名代理ip：服务器知道你使用了代理，服务器不能获取爬虫真实的ip

高匿代理ip：服务器不知道使用了代理，服务器不能获取爬虫真实ip

反爬：ip封禁--->使用代理ip

import requests
url = '*********'
proxies = {
    #或者是https
    'http':'http://ip地址:端口号',
    #无论是http还是https，后面一定是http
    'https':'http://ip地址:端口号'
}
res = requests.get(url=url,proxies = proxies)

超时设置

添加了一个参数，以秒计量timeout=0.1

#添加timeout参数，秒数
import requests
res=requests.get(url=url,timeout=0.1)

给予爬虫与服务器连接的时间限定，设置一个时间，在指定的时间内完成了正常的连接，不报错，如果没有完成，就会报错

requests模块发送请求可以设置超时时间，在超时时间内未得到响应，便会抛出异常

好处：一方面减少了请求的阻塞时间，一方面，可以进行异常处理，执行相应的操作

如果规定时间完成了和服务器连接，之后爬取数据的时间并不算在超时设置的时间内

cookie的处理(session)

在同一个关联网页中，为了保存登录状态和各种信息，可以通过cookie来保持

三种方法

手动在headers中添加cookie的键值对
cookiejar对象
自动封装cookie的类：Session

#cookie的处理
	#1.url = 'https://www.baidu.com/'
        headers = {
            'Cookie':'BIDUPSID=B63BDB40304991E9FF3159864CC9C302; PSTM=1586308511; BAIDUID=B63BDB40304991E9CC4E4ECFFCFFB23D:FG=1; BD_UPN=12314753; BDUSS=VWNmZu',
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
        }
        res = requests.get(url=url,headers=headers)
        
    #2.cookiejar对象
    from requests.cookies import RequestCookieJar
   	1.首先需要获取Cookies
    Cookie = ***********
    2.实例化一个jar对象
    jar = RequestsCookieJar()
    3.处理Cookies，封装进jar对象中
    for i in Cookie.split(','):
        #再次分割，分成dict的键值，每分割一次添加一次
        k,v = i.split('=',1)
        jar.set(k,v)
    from requests import Session
    1.实例化一个对象
    session = Session()
    2.url
    url = '*****'
    3.session.get()或者session.post(url=url.headers=headers)
    res = session.post(url=url.headers=headers)

模拟登录
from requests import Session

session = Session()

data = {
    'username':"***",
    'password':'123456'
}

res = session.post(url=url,headers=headers,data=data)

jia___qi

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
request高阶应用

文件处理import requests#打开文件，注意要以rb形式打开f = open('chn.jpg','rb')files = { 'file':f}res = requests.post(url='***',files = files)会话维持from requests import Session#1.实例化一个对象session = Session()#2.urlurl = '*****'#3.session.get()或者session.post(url=u
复制链接

扫一扫

专栏目录