1. 基于Nutch1.8,BS结构
2. 完全MapReduce化
3. 流程驱动,支持3种类型的流程自定义:
1) 网页内容采集流程:封装了Nutch的inject、generate、fetch、parse、updatedb等节点,对普通用户将默认参数进行了调优,对“爬虫专家”用户,提供了Nutch所有高级的参数的界面设置入口。
图1 网页内容爬取流程定义
图2 爬取流程实例管理
2) 模板解析流程:实现了定义最少的模板解析最多的网页。
- 基于机器学习的网页内容自动聚类
- 基于jsoup的解析模板定义
图3 模板解析流程定义
图4 爬取结果聚类之后定义解析模板
3) 爬取内容导出流程:如实现“图片、视频满足一定大小”的多媒体文件导出。
4. 基于规则引擎的网页内容过滤:对内容解析结果进行复杂过滤,支持常见的字符串函数和逻辑运算符。
图5 内容过滤时使用规则引擎
5. 实时监控
图6 流程运行实时监控