Nutch 2.0 终于来了

最新推荐文章于 2015-08-23 16:14:51 发布

amuseme_lu

最新推荐文章于 2015-08-23 16:14:51 发布

阅读量4.7k

点赞数

分类专栏： Nutch 文章标签： nosql数据库 cassandra mapreduce nosql hbase 存储

本文链接：https://blog.csdn.net/amuseme_lu/article/details/7753558

版权

Nutch 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

Nutch 2.0 终于来了
-------------------------

带着大部分人的期待，Nutch 2.0终于发布了，它在Nutch 1.x的基础上做了比较大的改变，主要还是在它的存储层的抽象上，Nutch 2.0的计划最终由使用者对于Nutch对No-sql的不支持而建立起来的，最初的版本叫做NutchBase，由Dogacan Guney进行开发，最初始版本由于过于依赖HBase这个开源的NoSql数据库，后来决定把这个存储层抽象出来，做成一个MapReduce友好的ORM，它现在就成了Apache的Top level Project,这个项目叫Apache Gora，它提供了对于nosql访问的统一的接口，目前支持的数据库有Cassandra,hbase,accumulo等，它为mapReduce提供了一个从object到datastore的映射关系，这就意思着Nutch 2.0可以跑在HBase,Cassandra,Accumulo或者是MySql数据之前，我们要做的只是一个简单的配置。

Nutch 2.0的一个最大的变化在于通过使用NoSql，把原来的CrawlDb,content,segments与linkDB都整合到了一起，而不用像原来使用HDFS一样，要分开存储，这里使用了一个表的抽象来表示所有于URL有关的数据信息，这里也不必把分一层的segments都分开存储，这样带来一个附作用就是抓取与解析是可以恢复的。

从技术角度来看，这意味着Nutch现在不仅仅hadoop对于数据流的线性处理，而现在可能对单个元素进行读取与更新操作，不变的是现在大流程还是用MR任务来做，只是一些数据的过滤操作可以让后台数据库来完成。这样做的好处是避免了原来当只有几个URL被发现，而为了把这些发现的url更新到crawlDB中去，去用MR任务读取之前所有urls，再与新的urls进行合并，现在只要简单的对数据进行查找与更新就可以了。

不过现在的nutch 2.0还是一个测试版本，有一些1.x中的功能还没有还得急完成，所以现在Nutch 1.x版本还是trunk中的主要版本。

我相信通过对于数据存储层的抽象，以后的Nutch 2.x可以更好的应对海量数据的存储与处理。

PS:

下来有时候会对Gora与Avro做一个简单的介绍，毕竟 nutch2.0是Gora使用的第一个项目，而Gora使用了Avro来对object的系列化架构。

1. http://nutch.apache.org/

amuseme_lu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Nutch 2.0 终于来了

Nutch 2.0 终于来了-------------------------带着大部分人的期待，Nutch 2.0终于发布了，它在Nutch 1.x的基础上做了比较大的改变，主要还是在它的存储层的抽象上，Nutch 2.0的计划最终由使用者对于Nutch对No-sql的不支持而建立起来的，最初的版本叫做NutchBase，由Dogacan Guney进行开发，最初始版本由于过于依赖H
复制链接

扫一扫