构建一个给爬虫使用的代理IP池

做网络爬虫时,一般对代理IP的需求量比较大。因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。

代理IP的获取,可以从以下几个途径得到:

  • 从免费的网站上获取,质量很低,能用的IP极少

  • 购买收费的代理服务,质量高很多

  • 自己搭建代理服务器,稳定,但需要大量的服务器资源。

本文的代理IP池是通过爬虫事先从多个免费网站上获取代理IP之后,再做检查判断IP是否可用,可用的话就存放到MongoDB中,最后展示到前端的页面上。

获取可用Proxy

获取代理的核心代码是ProxyManager,它采用RxJava2来实现,主要做了以下几件事:

第一,创建ParallelFlowable,针对每一个提供免费代理IP的页面并行地抓取。对于不了解ParallelFlowable的同学,可以看我之前的文章RxJava 之 ParallelFlowable

  
  
  
  1. Flowable.fromIterable(ProxyPool.proxyMap.keySet())

  2.                .parallel()


第二,针对每一个页面进行抓取,返回List

  
  
  
  1. map(new Function<String, List<Proxy>>() {

  2.                    @Override

  3.                    public List<Proxy> apply(String s) throws Exception {

  4.                        try {

  5.                            return new ProxyPageCallable(s).call();

  6.                        } catch (Exception e) {

  7.                            e.printStackTrace();

  8.                        }

  9.                        return null;

  10.                    }

  11.                })


第三,对每一个页面获取的代理IP列表进行校验,判断是否可用

  
  
  
  1. flatMap(new Function<List<Proxy>, Publisher<Proxy>>() {

  2.                    @Override

  3.                    public Publisher<Proxy> apply(List<Proxy> proxies) throws Exception {

  4.                        if (proxies == null) return null;

  5.                        List<Proxy> result = proxies

  6.                                .stream()

  7.                                .parallel()

  8.                                .filter(new Predicate<Proxy>() {

  9.                            @Override

  10.                            public boolean test(Proxy proxy) {

  11.                                HttpHost httpHost = new HttpHost(proxy.getIp(),

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值