构建一个给爬虫使用的代理IP池

本文介绍如何构建一个爬虫使用的代理IP池,通过爬取免费网站获取IP,使用RxJava2进行并行抓取与有效性检查,存储到MongoDB,并在前端展示。还介绍了定时更新及IP有效性检测机制。源代码可在GitHub找到。
摘要由CSDN通过智能技术生成

做网络爬虫时,一般对代理IP的需求量比较大。因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。

代理IP的获取,可以从以下几个途径得到:

  • 从免费的网站上获取,质量很低,能用的IP极少

  • 购买收费的代理服务,质量高很多

  • 自己搭建代理服务器,稳定,但需要大量的服务器资源。

本文的代理IP池是通过爬虫事先从多个免费网站上获取代理IP之后,再做检查判断IP是否可用,可用的话就存放到MongoDB中,最后展示到前端的页面上。

获取可用Proxy

获取代理的核心代码是ProxyManager,它采用RxJava2来实现,主要做了以下几件事:

第一,创建ParallelFlowable,针对每一个提供免费代理IP的页面并行地抓取。对于不了解ParallelFlowable的同学,可以看我之前的文章RxJava 之 ParallelFlowable

  
  
  
  1. Flowable.fromIterable(ProxyPool.proxyMap.keySet())

  2.                .parallel()


第二,针对每一个页面进行抓取,返回List

  
  
  
  1. map(new Function<String, List<Proxy>>() {

  2.                    @Override

  3.                    public List<Proxy> apply(String s) throws Exception {

  4.                        try {

  5.                            return new ProxyPageCallable(s).call();

  6.                        } catch (Exception e) {

  7.                            e.printStackTrace();

  8.                        }

  9.                        return null;

  10.                    }

  11.                })


第三,对每一个页面获取的代理IP列表进行校验,判断是否可用

  
  
  
  1. flatMap(new Function<List<Proxy>, Publisher<Proxy>>() {

  2.                    @Override

  3.                    public Publisher<Proxy> apply(List<Proxy> proxies) throws Exception {

  4.                        if (proxies == null) return null;

  5.                        List<Proxy> result = proxies

  6.                                .stream()

  7.                                .parallel()

  8.                                .filter(new Predicate<Proxy>() {

  9.                            @Override

  10.                            public boolean test(Proxy proxy) {

  11.                                HttpHost httpHost = new HttpHost(proxy.getIp(),

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值