Nutch、heritrix、crawler4j优缺点

Nutch:

主页:https://nutch.apache.org/index.html

 

ApacheNutch是一个高度可扩展的和可伸缩的开源网页爬虫软件项目。源于ApacheLuceneTM,项目多样化,目前由两个代码库组成,即:

1.     Nutch1.x:一个非常成熟的爬虫产品。1.x版本支持细粒度的配置,依赖于一个很好的分布式处理的ApacheHadoop数据结构。

2.     Nutch2.x:一个新兴的可供选择的版本,它的灵感来自于1.x版本,但是2.x和1.x在一个关键领域中不同。2.x版本的存储是脱离任何特定的底层数据存储,使用ApacheGora™处理对象持久性映射。这意味着我们可以实现一个极其灵活的模型/栈用于存储一切(比如获取时间、状态、内容解析文本、outlinks、inlinks等等)到NoSQL数据库中的解决方案。

 

可插拔和模块化当然有着它的好处,Nutch提供了可扩展的接口,比如Parse(解析)、Index(索引)和Scoringfilter的自定义实现(例如用于解析的ApacheTika)。另外

Nutch可以在一个单个的机器上面运行,但是可以从运行一个Hadoop集群获取很多它想要的。

 

1)Nutch是基于Hadoop的,它帮助我们更好的理解Hadoop

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值