文件处理
import requests
#打开文件,注意要以rb形式打开
f = open('chn.jpg','rb')
files = {
'file':f
}
res = requests.post(url='***',files = files)
会话维持
from requests import Session
#1.实例化一个对象
session = Session()
#2.url
url = '*****'
#3.session.get()或者session.post(url=url.headers=headers)
res = session.post(url=url.headers=headers)
ssl
证书验证
https
是http
的安全版本,HTTPS
在http
的基础上多了一个ssl
安全套接层
requests提供了证书验证的功能,当发起HTTP请求时,模块会检查
SSL
证书,但检查的行为可以用verify参数来控制
添加了一个参数verify=false --->不检查ssl证书
,如果等于True
,则检查SSL
证书
#ssl证书验证
抛出异常
sslError
#添加一个verify=false参数,禁止证书验证
import requests
url = '******'
#阻止抛出警告
requests.packages.urllib3.disable_warinings()
res = requests.get(url=url,verify=false)
代理设置
代理
IP
是指在请求的过程中使用非本机ip
进行请求,避免大数据量频繁请求的过程中出现IP
封禁,限制数据的爬取
透明代理ip
:服务器知道你使用了代理,服务器能够获取爬虫真实的ip
匿名代理ip
:服务器知道你使用了代理,服务器不能获取爬虫真实的ip
高匿代理ip
:服务器不知道使用了代理,服务器不能获取爬虫真实ip
反爬:ip封禁--->使用代理ip
import requests
url = '*********'
proxies = {
#或者是https
'http':'http://ip地址:端口号',
#无论是http还是https,后面一定是http
'https':'http://ip地址:端口号'
}
res = requests.get(url=url,proxies = proxies)
超时设置
添加了一个参数,以秒计量timeout=0.1
#添加timeout参数,秒数
import requests
res=requests.get(url=url,timeout=0.1)
给予爬虫与服务器连接的时间限定,设置一个时间,在指定的时间内完成了正常的连接,不报错,如果没有完成,就会报错
requests模块发送请求可以设置超时时间,在超时时间内未得到响应,便会抛出异常
好处:一方面减少了请求的阻塞时间,一方面,可以进行异常处理,执行相应的操作
如果规定时间完成了和服务器连接,之后爬取数据的时间并不算在超时设置的时间内
cookie的处理(session)
在同一个关联网页中,为了保存登录状态和各种信息,可以通过cookie来保持
三种方法
- 手动在headers中添加cookie的键值对
cookiejar
对象- 自动封装cookie的类:
Session
#cookie的处理
#1.url = 'https://www.baidu.com/'
headers = {
'Cookie':'BIDUPSID=B63BDB40304991E9FF3159864CC9C302; PSTM=1586308511; BAIDUID=B63BDB40304991E9CC4E4ECFFCFFB23D:FG=1; BD_UPN=12314753; BDUSS=VWNmZu',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}
res = requests.get(url=url,headers=headers)
#2.cookiejar对象
from requests.cookies import RequestCookieJar
1.首先需要获取Cookies
Cookie = ***********
2.实例化一个jar对象
jar = RequestsCookieJar()
3.处理Cookies,封装进jar对象中
for i in Cookie.split(','):
#再次分割,分成dict的键值,每分割一次添加一次
k,v = i.split('=',1)
jar.set(k,v)
from requests import Session
1.实例化一个对象
session = Session()
2.url
url = '*****'
3.session.get()或者session.post(url=url.headers=headers)
res = session.post(url=url.headers=headers)
模拟登录
from requests import Session
session = Session()
data = {
'username':"***",
'password':'123456'
}
res = session.post(url=url,headers=headers,data=data)