构建一个给爬虫使用的代理IP池

最新推荐文章于 2024-08-01 11:53:57 发布

Java与Android技术栈

最新推荐文章于 2024-08-01 11:53:57 发布

阅读量3k

点赞数 2

本文链接：https://blog.csdn.net/SLFq6OF5O7aH/article/details/78976941

版权

本文介绍如何构建一个爬虫使用的代理IP池，通过爬取免费网站获取IP，使用RxJava2进行并行抓取与有效性检查，存储到MongoDB，并在前端展示。还介绍了定时更新及IP有效性检测机制。源代码可在GitHub找到。

摘要由CSDN通过智能技术生成

做网络爬虫时，一般对代理IP的需求量比较大。因为在爬取网站信息的过程中，很多网站做了反爬虫策略，可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。

代理IP的获取，可以从以下几个途径得到：

从免费的网站上获取，质量很低，能用的IP极少
购买收费的代理服务，质量高很多
自己搭建代理服务器，稳定，但需要大量的服务器资源。

本文的代理IP池是通过爬虫事先从多个免费网站上获取代理IP之后，再做检查判断IP是否可用，可用的话就存放到MongoDB中，最后展示到前端的页面上。

获取可用Proxy

获取代理的核心代码是ProxyManager，它采用RxJava2来实现，主要做了以下几件事：

第一，创建ParallelFlowable，针对每一个提供免费代理IP的页面并行地抓取。对于不了解ParallelFlowable的同学，可以看我之前的文章RxJava 之 ParallelFlowable

  
  
  
   Flowable.fromIterable(ProxyPool.proxyMap.keySet())
                   .parallel()

第二，针对每一个页面进行抓取，返回List

  
  
  
   map(new Function<String, List<Proxy>>() {
         
                       @Override
                       public List<Proxy> apply(String s) throws Exception {
         
   
                           try {
         
                               return new ProxyPageCallable(s).call();
                           } catch (Exception e) {
         
                               e.printStackTrace();
                           }
   
                           return null;
                       }
                   })

第三，对每一个页面获取的代理IP列表进行校验，判断是否可用

  
  
  
   flatMap(new Function<List<Proxy>, Publisher<Proxy>>() {
         
                       @Override
                       public Publisher<Proxy> apply(List<Proxy> proxies) throws Exception {
         
   
                           if (proxies == null) return null;
   
                           List<Proxy> result = proxies
                                   .stream()
                                   .parallel()
                                   .filter(new Predicate<Proxy>() {
         
                               @Override
                               public boolean test(Proxy proxy) {
         
   
                                   HttpHost httpHost = new HttpHost(proxy.getIp(),