Apache Nutch 1.3 学习笔记十二(Nutch 2.0 的主要变化)

 

Nutch 2.0 的主要一些变化

1. Storage Abstraction

   initially with back end implementations for HBase and HDFS
   extend it to other storages later e.g. MySQL etc...
   
这里说的是一个存储层的抽象,因为原来nutch的链接与数据的存储都是在HDFS上的,新的Nutch 2.0准备把存储层进行抽象,使用的是新的NoSqlORM框架,叫做GORA,下面地址中有其说明http://wiki.apache.org/nutch/GORA_HBase,主页在http://incubator.apache.org/gora/,目前支持数据库为Apache HBase and Apache CassandraHypertable,以后可能会支持MySQL

2. Plugin cleanup : Tika only for parsing document formats (see http://wiki.apache.org/nutch/TikaPlugin)

   keep only stuff HtmlParseFilters (probably with a different API) so that we can post-process the DOM created in Tika from  whatever original format.
   Modify code so that parser can generate multiple documents which is what 1.x does but not 2.0
   
对插件功能的整理。

3. Externalize functionalities to crawler-commons project [http://code.google.com/p/crawler-commons/]

   robots handling, url filtering and url normalization, URL state management, perhaps deduplication. We should coordinate our efforts, and share code freely so that other projects (bixo, heritrix,droids) may contribute to this shared pool of functionality, much like Tika does for the common need of parsing complex formats.
   
Nutch的抓取功能抽象出来,生成一个common工程,以扩展到现有的不同的网页抓取库,如heritrix,bixo等。

4. Remove index / search and delegate to SOLR

   we may still keep a thin abstract layer to allow other indexing/search backends (ElasticSearch?), but the current mess of  indexing/query filters and competing indexing frameworks (lucene, fields, solr) should go away. We should go directly from DOM to a NutchDocument, and stop there.
   
这一部分是对索引的重构,把索引的建立与查询移到SOLR架构上去,这样可以和搜索进行很好的隔离,现在的nutch 1.3 已经可以使用Solr建立索引与查询,可能Nutch 2.0的功能或者使用上会有一个更加的改进。

5. Rewrite SOLR deduplication : do everything using the webtable and avoid retrieving content from SOLR

   这是对SOLRdeduplication代码的一个重构。

6. Various new functionalities

   e.g. sitemap support, canonical tag, better handling of redirects, detecting duplicated sites, detection of spam cliques, tools to manage the webgraph, etc.
   
一些新的特性,如sitemap的支持,这个在crawler-commons项目有,更好的去处理网页的重定向,检查重复的网站等,还有一些去处理webgraph的外围工具都会完善起来。


 
总之,Nutch2.0 的改进还是比较多的,主要是体现在存储层的抽象、抓取功能的扩展抽象、引入SOLR框架。看来Nutch的路还有很长啊。

参考

http://wiki.apache.org/nutch/Nutch2Roadmap

 

作者:http://blog.csdn.net/amuseme_lu

 

 


 

 

 

 

 

相关文章阅读及免费下载:

 

 

 

Apache Nutch 1.3 学习笔记目录

 

 

 

Apache Nutch 1.3 学习笔记一

 

 

 

Apache Nutch 1.3 学习笔记二

 

 

 

Apache Nutch 1.3 学习笔记三(Inject)

 

 

 

Apache Nutch 1.3 学习笔记三(Inject CrawlDB Reader)

 

 

 

Apache Nutch 1.3 学习笔记四(Generate)

 

 

 

Apache Nutch 1.3 学习笔记四(SegmentReader分析)

 

 

 

Apache Nutch 1.3 学习笔记五(FetchThread)

 

 

 

Apache Nutch 1.3 学习笔记五(Fetcher流程)

 

 

 

Apache Nutch 1.3 学习笔记六(ParseSegment)

 

 

 

Apache Nutch 1.3 学习笔记七(CrawlDb - updatedb)

 

 

 

Apache Nutch 1.3 学习笔记八(LinkDb)

 

 

 

Apache Nutch 1.3 学习笔记九(SolrIndexer)

 

 

 

Apache Nutch 1.3 学习笔记十(Ntuch 插件机制简单介绍)

 

 

 

Apache Nutch 1.3 学习笔记十(插件扩展)

 

 

 

Apache Nutch 1.3 学习笔记十(插件机制分析)

 

 

 

Apache Nutch 1.3 学习笔记十一(页面评分机制 OPIC)

 

 

 

Apache Nutch 1.3 学习笔记十一(页面评分机制 LinkRank 介绍)

 

 

 

Apache Nutch 1.3 学习笔记十二(Nutch 2.0 的主要变化)

 

 

 

更多《Apache Nutch文档》,尽在开卷有益360 http://www.docin.com/book_360

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值