JAVA爬虫 WebCollector

最新推荐文章于 2021-02-13 15:28:08 发布

三修三元

最新推荐文章于 2021-02-13 15:28:08 发布

阅读量775

点赞数 1

分类专栏： java

3 篇文章 0 订阅

订阅专栏

爬虫简介：

WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本，支持分布式爬取。

爬虫内核：

WebCollector致力于维护一个稳定、可扩的爬虫内核，便于开发者进行灵活的二次开发。内核具有很强的扩展性，用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup，可进行精准的网页解析。2.x版本中集成了selenium，可以处理javascript生成的数据。

内核构架图：

网页正文提取：

网页正文提取项目ContentExtractor已并入WebCollector维护。
WebCollector的正文抽取API都被封装为ContentExtractor类的静态方法。可以抽取结构化新闻，也可以只抽取网页的正文（或正文所在Element)。
正文抽取效果指标 :

标题抽取和日期抽取使用简单启发式算法，并没有像正文抽取算法一样在标准数据集上测试，算法仍在更新中。

WebCollector 2.x版本特性：

WebCollector-Hadoop是WebCollector的分布式版本，目前为beta版本

Lazy是基于WebCollector的一个懒人版爬虫，可以通过配置采集网页持久化到mongodb中。
Lazy目前版本为beta版，教程可参考 Lazy爬虫配置教程。

WebCollector 2.x官网和镜像：

WebCollector 2.x教程：

通过捐款支持WebCollector：

维护WebCollector及教程需要花费较大的时间和精力，如果你喜欢WebCollector的话，欢迎通过捐款的方式，支持开发者的工作，非常感谢！

你可以使用支付宝钱包扫描下方的二维码进行捐款，或者通过向支付宝帐号hujunxianligong@126.com转帐进行捐款。

开源社区地址：http://www.oschina.net/p/webcollector

关注

专栏目录