Java爬虫-WebCollector

最新推荐文章于 2021-02-13 15:28:08 发布

Belial_2010

最新推荐文章于 2021-02-13 15:28:08 发布

阅读量1.8k

点赞数

分类专栏：深度学习-TensorFlow 文章标签： Java 网络爬虫 webcollector

深度学习-TensorFlow 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

爬虫简介：

WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。

爬虫内核：

WebCollector致力于维护一个稳定、可扩的爬虫内核，便于开发者进行灵活的二次开发。内核具有很强的扩展性，用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup，可进行精准的网页解析。

量级：

WebCollector最常用的爬取器BreadthCrawler使用2^24的布隆过滤器进行URL管理，可处理2^24量级的数据，也就是3000W的网页。用户可以通过自定义插件来定制处理能处理更大量级数据的爬虫。

插件：

基于WebCollector内核，可以自己编写爬虫的http请求、链接解析器、爬取信息更新器、抓取器等模块，WebCollector把这些基于内核编写的模块称作"插件"，通过不同的插件组合，可以在1分钟内，把WebCollector组装成一个全新的爬虫。

WebCollector内置了一套插件(cn.edu.hfut.dmic.webcollector.plugin.redis)。基于这套插件，可以把WebCollector的任务管理放到redis数据库上。在早期版本中，redis插件可以让爬虫处理较高量级的数据。从1.35版本开始，爬取器BreadthCrawler已经比使用redis插件的爬取器(RedisCrawler)具有更高的爬取量级。所以目前还是推荐使用BreadthCrawler作为爬取器。

用户可以根据自己的需求，去开发适合自己的插件。

MAVEN：

1

2

3

4

5

 
        < 
        dependency 
        > 
       
 
             
        < 
        groupId 
        >cn.edu.hfut.dmic.webcollector</ 
        groupId 
        > 
       
 
             
        < 
        artifactId 
        >WebCollector</ 
        artifactId 
        > 
       
 
             
        < 
        version 
        >1.42</ 
        version 
        > 
       
 
        </ 
        dependency 
        > 
       

教程：

WebCollector文档(Cookbook)

WebCollector入门教程（中文版）

WebCollector内核解析—如何设计一个爬虫

用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫（JAVA）

用WebCollector爬取美食网站的所有图片

爬虫代理

DEMO1：

用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫（JAVA）

 
        public  
        class  
        ZhihuCrawler  
        extends  
        BreadthCrawler{ 
       
        /*visit函数定制访问每个页面时所需进行的操作*/ 
       
        @Override 
       
        public  
        void  
        visit(Page page) { 
       
        String question_regex= 
        "^http://www.zhihu.com/question/[0-9]+" 
        ; 
       
        if 
        (Pattern.matches(question_regex, page.getUrl())){ 
       
        System.out.println( 
        "正在抽取" 
        +page.getUrl()); 
       
        /*抽取标题*/ 
       
        String title=page.getDoc().title(); 
       
        System.out.println(title); 
       
        /*抽取提问内容*/ 
       
        String question=page.getDoc().select( 
        "div[id=zh-question-detail]" 
        ).text(); 
       
        System.out.println(question); 
       
        } 
       
        } 
       
        /*启动爬虫*/ 
       
        public  
        static  
        void  
        main(String[] args)  
        throws 
         Exception{   
       
        ZhihuCrawler crawler= 
        new  
        ZhihuCrawler(); 
       
        crawler.addSeed( 
        "http://www.zhihu.com/question/21003086" 
        ); 
       
        crawler.addRegex( 
        "http://www.zhihu.com/.*" 
        ); 
       
        crawler.start( 
        5 
        );   
       
        } 
       
        }

设计框架：

Generator:抓取任务生成模块。

Filter:过滤器。对生成的任务进行过滤。

Fetcher:爬取任务。

Parser:解析任务（主要为链接抽取）。

Handler:消息机制。使用WebCollector的开发者通过handler可以快速定制自己的爬虫。WebCollector并没有使用Nutch的插件机制，而是使用handler来完成对爬虫功能的扩展。爬虫每遍历到一个页面，就会发送一个Message给Handler，开发者只要定制自己的Handler，即可对页面进行自定义操作。