第二十八节:隧道代理阿布云代理

阿布云为我们提供了隧道代理IP的服务,通过阿布云HTTP隧道的动态版可以让我们的爬虫很好的使用动态代理IP

由此可知我们可以得到requests接入代码

 1 # -*- coding:utf-8 -*-
 2 import requests
 3 
 4 # 要访问的目标网页
 5 url = "http://httpbin.org/get"
 6 
 7 # 代理服务器,根据购买的套餐,自行查看修改
 8 proxy_host = "http-dyn.abuyun.com"
 9 
10 # 代理端口
11 proxy_prot = "9020"
12 
13 # 代理隧道验证信息
14 proxy_user = "H01234567890123D"     # 购买隧道的通行证书
15 proxy_pass = "0123456789012345"     # 购买隧道的通行秘钥
16 
17 proxy_meta = "http://%(user)s:%(pass)s@%(host)s:%(port)s"%{
18     "host":proxy_host,
19     "port":proxy_prot,
20     "user":proxy_user,
21     "pass":proxy_pass,
22 }
23 
24 proxies = {
25     "http":proxy_meta,
26     "https":proxy_meta,
27 }
28 
29 response = requests.get(url=url,proxies=proxies)
30 print(response.status_code)
31 print(response.text)
requests

得到结果为:

 1 200
 2 {
 3 "args": {},
 4 "headers": {
 5     "Accept": "*/*",
 6     "Accept-Encoding": "gzip, deflate",
 7     "Connection": "close",
 8     "Host": "httpbin.org",
 9     "User-Agent": "python-requests/2.18.1"
10 },
11 "origin": "60.207.237.111",
12 "url": "http://httpbin.org/get"}

最后由于阿布云的proxy地址是不变的(实际是动态ip),实际上,得到上边的proxies后,直接使用那个地址,进行proxies=proxies 设置即可。

同时阿布云还提供爬虫框架Scrapy的接入代码

 1 import base64
 2 
 3 # 代理服务器,根据购买的套餐,自行查看修改
 4 proxyServer = "http://http-dyn.abuyun.com:9020"
 5 
 6 # 代理隧道验证信息
 7 proxy_user = "H01234567890123D"     # 购买隧道的通行证书
 8 proxy_pass = "0123456789012345"     # 购买隧道的通行秘钥
 9 
10 proxyAuth = "Basic " + base64.urlsafe_b64encode(bytes((proxy_user + ":" + proxy_pass), "ascii"))
11 proxyAuth = proxyAuth.decode("utf8")
12 
13 
14 class ProxyMiddleware(object):
15     def process_request(self,request,spider):
16         request.meta["proxy"] = proxyServer
17         request.headers["Proxy-Authorization"] = proxyAuth
Scrapy

由于,在阿布云购买的是最基础的代理,即每秒 5 个请求,又因为 Scrapy 默认的并发数是 16 个,所以需要对 Scrapy 请求数量进行一下限制,可以设置每个请求的延迟时间为 0.2s ,这样一秒就刚好请求 5 个,最后启用上面的代理中间件类即可:

1 AUTOTHROTTLE_ENABLED = True
2 DOWNLOAD_DELAY = 0.2  # 每次请求间隔时间
3 
4 # 启用阿布云代理中间件
5 DOWNLOADER_MIDDLEWARES = {
6  'maoyan.middlewares.ProxyMiddleware': 301,
7 }

转载于:https://www.cnblogs.com/zhaco/p/11198339.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值