爬取网上公开免费代理(http/socks),解析入库,可满足需要切换IP的场景(爬虫、投票等)需求。
项目地址: https://github.com/Jwnie/proxyservice
1、采用SpringBoot快速开发,mysql存储,httpclient 4.x 、selenium+chrome和Jsoup下载解析,并对已爬取的代理定时进行联通有效校验;
2、目前支持两个代理查询接口,看需要可进行扩展:
(1)http://localhost:8888/proxy/getProxy?isDemostic=true&anonymousType=elite&protocolType=https
默认返回前一百条可用代理;
参数说明:
(1) isDemostic: 可选参数,是否为国内代理,值为true和false;
(2) anonymousType: 可选参数,代理的匿名类型,分为四种:transparent(透明)、anonymous(匿名)、distorting(混淆)、elite(高匿);
(3) protocolType: 可选参数,代理的协议类型,分为http、https、socks4、socks5和socks(未做socks4和socks5的细分,统称为socks)
返回数据:
(2)http://localhost:8888/proxy/proxyStatistic
查询代理数量,按代理站点统计: