渣渣Python学习打卡之爬虫篇——第二天(requests高级)
一、SSL验证
#一、SSL验证
import requests
response = requests.get('https://www.12306.cn/index/')
print(response.status_code)
运行结果:
#若报错SSLError,表示证书验证错误,把 verify 参数设置为 False 即可
import requests
response = requests.get('https://www.12306.cn', verify=False)#去掉/index/,在括号内添加设置参数
print(response.status_code)
运行结果:
#此处报错含有警告:让我们添加证书。解决办法:
#方法一:设置忽略警告方式
import requests
from requests.packages import urllib3#导包
urllib3.disable_warnings()#设置忽略警告
response = requests.get('https://www.12306.cn', verify=False)#在括号内添加设置参数
print(response.status_code)
运行结果:
#方法二:捕获警告到日志
import logging#导入logging包
import requests
logging.captureWarnings(True)#捕获警告到日志
response = requests.get('https://www.12306.cn', verify=False)
print(response.status_code)
运行结果:
二、代理设置
#为什么要进行“代理设置”?
#对于某些网站,进行大规模爬取时,可能会弹出验证码,或者转到登录认证页面,
#甚至直接封禁客户端IP,导致一定时间内难以访问
#使用proxies参数来设置代理
首先,安装socks库:
!pip install socks#安装 socks 库
安装成功界面如下:
proxies 参数形式例子(运行无效),需要换成自己买的有效代理才可行
import requests
proxies = {
'http':'http://10.10.1.10:3128',
'https':'http://10.10.1.10:1080',
}
requests.get('http://www.taobao.com',proxies=proxies)
运行:略
#若代理需要使用 HTTP Basic Auth,则程序如下: 此处的代理无效,大概率运行不出来
import requests
proxies = {'https': 'http://user:password@10.10.1.10:3128/',}
requests.get('https://www.taobao.com', proxies=proxies)
运行:略
#除基本HTTP 代理外,requests 还支持 SOCKS 协议的代理,例子如下: (注意:ip必须是有用的ip才会有效果)
import requests
proxy = '123.58.10.36:8080' #本地代理ip
#proxy='username:password@123.58.10.36:8080'
proxies={
'http':'http://'+proxy,
'https':'https://'+proxy
}
try:
response = requests.get('http://httpbin.org/get',proxies=proxies)
print(response.txt)
except requests.exceptions.ConnectionError as e:
print('错误:',e.args)
三、超时设置
#为什么要进行'超时设置'?
#在本机网络状况不好或者服务器网络响应太慢甚至无响应时,可能会等待特别久的时间才可能收到响应,甚至到最后收不到响应而报错。为了防止服务器不能及时响应,应该设置一个超时时间,即超过了这个时间还没有得到响应,那就报错。
#使用timeout参数来实现
#timeout参数
import requests
r = requests.get('https://blog.csdn.net/weixin_46211269?spm=1000.2115.3001.5343&type=blog',timeout=1)#此处timeout参数设为1
print(r.status_code)
运行结果:
#这样的方式将超时时间设置为 1 秒,1 秒内没有响应,那就抛出异常。
#请求分为:连接(connect)+读取(read)
#上述timeout为:timeout(connect)+timeout(read)
#若需要分别指定,则可传入一个元组
import requests
r = requests.get('https://blog.csdn.net/weixin_46211269?spm=1000.2115.3001.5343&type=blog', timeout=(10,20))
print(r.status_code)
运行结果:
#若想永久等待:
#方法一:requests.get中的参数设置为timeout=None
import requests
r = requests.get('https://blog.csdn.net/weixin_46211269?spm=1000.2115.3001.5343&type=blog', timeout=None)
print(r.status_code)
想永久等待而参数设置为timeout=None运行结果:
#方法二:requests.get中直接不加参数
import requests
r = requests.get('https://blog.csdn.net/weixin_46211269?spm=1000.2115.3001.5343&type=blog')
print(r.status_code)
想永久等待而不加参数运行结果:
四、身份认证
#原因:免登录
#(1):基本身份认证
#身份验证基本格式: 此处未加SSL验证,必然报错
import requests
from requests.auth import HTTPBasicAuth
r = requests.get('http://localhost:5000',auth=HTTPBasicAuth('username','password'))
print(r.status_code)
运行结果:
#加入SSL验证(verify=False):
import requests
from requests.auth import HTTPBasicAuth
r = requests.get('https://static3.scrape.cuiqingcai.com/', auth=HTTPBasicAuth('username', 'password'),verify=False)
print(r.status_code)
基本身份认证运行结果:
#认证失败 咋办呢???
#(2):摘要式身份认证(Digest Authentication)——另一种非常流行的HTTP身份认证形式
#使用Requests对其支持:开箱即用
import requests
from requests.auth import HTTPDigestAuth
url = 'http://httpbin.org/digest-auth/auth/user/pass'#可更改digest-auth/auth/user/pass?
requests.get(url,auth=HTTPDigestAuth('user','pass'))#可更改user和pass?
Digest Authentication运行结果: