简介:
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。
如何将WebCollector导入项目请看下面这个教程:
JAVA网络爬虫WebCollector深度解析——爬虫内核
参数:
WebCollector无需繁琐配置,只要在代码中给出下面几个必要参数,即可启动爬虫:
1.种子(必要):
种子即爬虫的起始页面。一个爬虫可添加一个或多个种子。
2.正则(可选):
正则是约束爬取范围的一些正则式。正则不一定要给出。如果用户没有给出正则,系统会自动将爬取范围限定在种子的域名内。
3.线程数(可选):
WebCollector是一个多线程的爬虫,默认使用10个线程同时工作。开发者可以自定义线程数。
需求:
简述一下教程里代码的功能:定制一个爬虫,对“知乎”网站进行爬取,不要求下载所有的网页和文件,而是要求对知乎中所有的“提问”页面中的”问题“进行提取。如图:
我们需要提取问题标题:“看了《蝙蝠侠》,如果我闯进纽交所,逼迫所有人卖掉他手里的所有的股票期货债券什么的,会有什么毁灭性后果?",