什么是隧道转发的爬虫代理:
传统API提取式代理,通过URL定时获取代理IP信息,需验证IP的可用性、更换代理设置,同时需要设计多线程异步IO,实现代理IP并发处理,不仅繁琐,而且影响效率。
“亿牛云爬虫代理IP”通过固定云代理服务地址,建立专线网络链接,代理平台自动实现毫秒级代理IP切换,保证了网络稳定性和速度,避免爬虫客户在代理IP策略优化上投入精力。
爬虫代理加强版的IP切换模式:
所有模式在IP有效时间到期会强制切换IP,标准版、加强版的IP切换模式有2种:
(1)每个HTTP请求自动切换IP,是指爬虫代理为爬虫程序发出的每个HTTP请求随机提供一个代理IP。该模式适合一些需要大量IP的单session爬虫业务。
(2)用户自主切换IP,爬虫程序通过设置HTTP头Proxy-Tunnel:随机数,当随机数相同时,将不同的HTTP请求强制指定为一个代理IP。该模式适合一些需要登陆(多个session使用相同IP)、Cookie缓存处理等需要精确控制IP切换时机的业务。
隧道转发的爬虫代理IP有效时间选择:20秒有效时间更短,但是可以提供的IP数量更多,180秒有效时间更长,但是可以提供的IP数量更少,除非业务采集必须,应该选择20秒代理有效时间,提供更多的IP,避免网站反爬策略。
隧道转发爬虫代理请求过多返回状态:
如果开通的HTTP\HTTPS代理,系统返回429 Too Many Requests;如果开通的Socket5代理,系统会主动对TCP延迟降速,或者直接拒绝超出部分的TCP请求。这两种处理方式都不会对爬虫的运行产生影响,爬虫会根据返回结果自动重新发起请求,这是HTTP\HTTPS和Socket5的标准应答模式。
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.D