2021-11-13

渣渣Python学习打卡之爬虫篇——第二天(requests高级)

一、SSL验证

#一、SSL验证
import requests

response = requests.get('https://www.12306.cn/index/')
print(response.status_code)

运行结果:

请添加图片描述

#若报错SSLError,表示证书验证错误,把 verify 参数设置为 False 即可
import requests

response = requests.get('https://www.12306.cn', verify=False)#去掉/index/,在括号内添加设置参数
print(response.status_code)

运行结果:
请添加图片描述

#此处报错含有警告:让我们添加证书。解决办法:
#方法一:设置忽略警告方式
import requests
from requests.packages import urllib3#导包

urllib3.disable_warnings()#设置忽略警告
response = requests.get('https://www.12306.cn', verify=False)#在括号内添加设置参数
print(response.status_code)

运行结果:
请添加图片描述

#方法二:捕获警告到日志
import logging#导入logging包
import requests
logging.captureWarnings(True)#捕获警告到日志
response = requests.get('https://www.12306.cn', verify=False)
print(response.status_code)

运行结果:
请添加图片描述
二、代理设置

#为什么要进行“代理设置”?
#对于某些网站,进行大规模爬取时,可能会弹出验证码,或者转到登录认证页面,
#甚至直接封禁客户端IP,导致一定时间内难以访问

#使用proxies参数来设置代理
首先,安装socks库:

!pip install socks#安装 socks 库

安装成功界面如下:
请添加图片描述

proxies 参数形式例子(运行无效),需要换成自己买的有效代理才可行

import requests

proxies = {
    'http':'http://10.10.1.10:3128',
    'https':'http://10.10.1.10:1080',
}

requests.get('http://www.taobao.com',proxies=proxies)

运行:略

#若代理需要使用 HTTP Basic Auth,则程序如下:   此处的代理无效,大概率运行不出来
import requests

proxies = {'https': 'http://user:password@10.10.1.10:3128/',}
requests.get('https://www.taobao.com', proxies=proxies)

运行:略

#除基本HTTP 代理外,requests 还支持 SOCKS 协议的代理,例子如下:  (注意:ip必须是有用的ip才会有效果)
import requests

proxy = '123.58.10.36:8080' #本地代理ip
#proxy='username:password@123.58.10.36:8080'
proxies={
    'http':'http://'+proxy,
    'https':'https://'+proxy
}
try:
    response = requests.get('http://httpbin.org/get',proxies=proxies)
    print(response.txt)
except requests.exceptions.ConnectionError as e:
    print('错误:',e.args)

三、超时设置

#为什么要进行'超时设置'?
#在本机网络状况不好或者服务器网络响应太慢甚至无响应时,可能会等待特别久的时间才可能收到响应,甚至到最后收不到响应而报错。为了防止服务器不能及时响应,应该设置一个超时时间,即超过了这个时间还没有得到响应,那就报错。
#使用timeout参数来实现
#timeout参数
import requests

r = requests.get('https://blog.csdn.net/weixin_46211269?spm=1000.2115.3001.5343&type=blog',timeout=1)#此处timeout参数设为1
print(r.status_code)

运行结果:
请添加图片描述

#这样的方式将超时时间设置为 1 秒,1 秒内没有响应,那就抛出异常。
#请求分为:连接(connect)+读取(read)
#上述timeout为:timeout(connect)+timeout(read)
#若需要分别指定,则可传入一个元组
import requests

r = requests.get('https://blog.csdn.net/weixin_46211269?spm=1000.2115.3001.5343&type=blog', timeout=(10,20))
print(r.status_code)

运行结果:
请添加图片描述

#若想永久等待:
#方法一:requests.get中的参数设置为timeout=None
import requests

r = requests.get('https://blog.csdn.net/weixin_46211269?spm=1000.2115.3001.5343&type=blog', timeout=None)
print(r.status_code)

想永久等待而参数设置为timeout=None运行结果:
请添加图片描述

#方法二:requests.get中直接不加参数
import requests

r = requests.get('https://blog.csdn.net/weixin_46211269?spm=1000.2115.3001.5343&type=blog')
print(r.status_code)

想永久等待而不加参数运行结果:
请添加图片描述
四、身份认证

#原因:免登录

#(1):基本身份认证
#身份验证基本格式:  此处未加SSL验证,必然报错
import requests
from requests.auth import HTTPBasicAuth

r = requests.get('http://localhost:5000',auth=HTTPBasicAuth('username','password'))
print(r.status_code)

运行结果:
请添加图片描述

#加入SSL验证(verify=False):
import requests  
from requests.auth import HTTPBasicAuth  

r = requests.get('https://static3.scrape.cuiqingcai.com/', auth=HTTPBasicAuth('username', 'password'),verify=False)  
print(r.status_code)

基本身份认证运行结果:
请添加图片描述
#认证失败 咋办呢???

#(2):摘要式身份认证(Digest Authentication)——另一种非常流行的HTTP身份认证形式
#使用Requests对其支持:开箱即用   

import requests
from requests.auth import HTTPDigestAuth
url = 'http://httpbin.org/digest-auth/auth/user/pass'#可更改digest-auth/auth/user/pass?
requests.get(url,auth=HTTPDigestAuth('user','pass'))#可更改user和pass?

Digest Authentication运行结果:
请添加图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值