基于Vert.x和RxJava 2构建通用的爬虫框架

最新推荐文章于 2024-07-09 16:08:22 发布

Java与Android技术栈

最新推荐文章于 2024-07-09 16:08:22 发布

阅读量1.4k

点赞数 2

本文链接：https://blog.csdn.net/SLFq6OF5O7aH/article/details/79227286

版权

本文介绍了基于Vert.x和RxJava 2构建的爬虫框架，包括SpiderEngine和Spider组件。SpiderEngine可以管理多个Spider，提供API监控状态。框架内置了多种Downloader实现，并使用RxJava实现响应式处理。文章还展示了框架的使用示例，以及未来将增加验证码识别和Elasticsearch支持的功能。

摘要由CSDN通过智能技术生成

最近由于业务需要监控一些数据，虽然市面上有很多优秀的爬虫框架，但是我仍然打算从头开始实现一套完整的爬虫框架。

在技术选型上，我没有选择Spring来搭建项目，而是选择了更轻量级的Vert.x。一方面感觉Spring太重了，而Vert.x是一个基于JVM、轻量级、高性能的框架。它基于事件和异步，依托于全异步Java服务器Netty，并扩展了很多其他特性。

github地址：https://github.com/fengzhizi715/NetDiscovery

一. 爬虫框架的功能

爬虫框架包含爬虫引擎(SpiderEngine)和爬虫(Spider)。SpiderEngine可以管理多个Spider。

1.1 Spider

在Spider中，主要包含几个组件：downloader、queue、parser、pipeline以及代理池IP(proxypool)，代理池是一个单独的项目，我前段时间写的，在使用爬虫框架时经常需要切换代理IP，所以把它引入进来。

proxypool地址：https://github.com/fengzhizi715/ProxyPool

其余四个组件都是接口，在爬虫框架中内置了一些实现，例如内置了多个下载器(downloader)包括vertx的webclient、http client、okhttp3、selenium实现的下载器。开发者可以根据自身情况来选择使用或者自己开发全新的downloader。

Downloader的download方法会返回一个Maybe 。

  
  
  
   package com.cv4j.netdiscovery.core.downloader;
   
   import com.cv4j.netdiscovery.core.domain.Request;
   import com.cv4j.netdiscovery.core.domain.Response;
   import io.reactivex.Maybe;
   
   /**
    * Created by tony on 2017/12/23.
    */
   public interface Downloader {
         
   
       Maybe<Response> download(Request request);
   
       void close();
   }

在Spider中，通过Maybe 对象来实现后续的一系列的链式调用，比如将Response转换成Page对象，再对Page对象进行解析，Page解析完毕之后做一系列的pipeline操作。

  
  
  
                     downloader.download(request)
                               .observeOn(Schedulers.io())
                               .map(new Function<Response, Page>() {
         
   
                                   @Override
                                   public Page apply(Response response) throws Exception {
         
   
                                       Page page = new Page();
                                       page.setHtml(new Html(