爬虫产品开发(1)——主要功能和特色

1.  基于Nutch1.8,BS结构

2.  完全MapReduce化

3.  流程驱动,支持3种类型的流程自定义:

1)        网页内容采集流程:封装了Nutch的inject、generate、fetch、parse、updatedb等节点,对普通用户将默认参数进行了调优,对“爬虫专家”用户,提供了Nutch所有高级的参数的界面设置入口。

图1 网页内容爬取流程定义


图2 爬取流程实例管理

2)        模板解析流程:实现了定义最少的模板解析最多的网页。

  •   基于机器学习的网页内容自动聚类
  •  基于jsoup的解析模板定义

图3 模板解析流程定义


图4 爬取结果聚类之后定义解析模板

3)        爬取内容导出流程:如实现“图片、视频满足一定大小”的多媒体文件导出。

4.  基于规则引擎的网页内容过滤:对内容解析结果进行复杂过滤,支持常见的字符串函数和逻辑运算符。

图5 内容过滤时使用规则引擎

5.  实时监控

图6 流程运行实时监控

 

 


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值