Nutch大事件表

Nutch项目由Dong Cutting发起。现在专注于网络爬虫功能
nutch1.5版本后 诞生了nutch2.0版本
两个分支同时发展,主要是存储方式不同,1.x存储数据在HDFS上,2.x使用Gora映射,存在各种数据库中

1.x版本

2002年10月 Doug Cutting和Mike Cafarella创建了开源网页爬虫项目Nutch
后续根据Google的论文(GFS,MapReduce) 实现了NDFS+MapReduce
2005年6月 Nutch成为Lucene的一个子项目 8月 Nutch0.7发布
2006年7月 Nutch 0.8 发布,基于 hadoop 架构的 Nutch 版本(诞生了Hadoop
2009年3月 Apache Nutch 1.0 发布 需要 Java 6+环境支持(诞生了Tika
此版本包括几个主要的功能改进,例如新的索引框架、新的评分框架、Apache Solr 集成等等
2010年4月 Nutch成为Apache顶级项目

2010年9月 Nutch1.2 (搜索引擎)
由搜索引擎到网络爬虫
2011年6月 Nutch1.3(专注于网络爬虫功能),可以很好的与solr结合使用,进行搜索。

2013年6月 Apache Nutch v1.7 发布 最显着的特点是一个新的可插入索引架构,支持 Apache Solr和Elastic Search。

2021年1月 最新版本 Nutch 1.18 发布
1.x版本持续开发中…

2.x版本

2012年7月 Apache Nutch v2.0 发布(诞生了Gora

此版本为用户提供了一个专注于大规模爬行的版本,该版本基于存储抽象(通过 Apache Gora™)构建,用于大数据存储。可以将数据直接存储到HBase,MangoDB等Nosql数据库中
Gora:一个开源框架,为大数据提供内存数据模型和持久性,充当抓取数据的对象(网页或主机)到数据存储的映射框架。

2016年1月 Nutch2.3.1

适配的组件版本
Apache Avro 1.7.6
Apache Hadoop 1.2.1 and 2.5.2
Apache HBase 0.98.8-hadoop2 (although also tested with 1.X)
Apache Cassandra 2.0.2
Apache Solr 4.10.3
MongoDB 2.6.X
Apache Accumlo 1.5.1
Apache Spark 1.4.1

2019 年10月 Nutch 2.4

发布2.x的最后一个版本,没人致力于2.x的开发了!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值