Julien Nioche谈Apache Nutch 2功能和产品路线图

三周前发布的开源Web搜索框架Apache Nutch 2.1版支持改进的属性以实现更好的Solr配置,升级到各种Gora依赖项以及引入了在弹性搜索中构建索引的选项。 Nutch可以在单台机器上运行,但也可以用作在Hadoop集群中运行的大规模爬网平台。

该框架的2.0版在经过两年的开发后于7月发布 ,它基于使用Apache Gora框架的存储抽象。 Apache Gora开源框架提供了内存中的数据模型和大数据的持久性。 它支持持久存储到列存储,键值存储,文档存储和RDBMS,并通过广泛的Apache Hadoop MapReduce支持来分析数据。 Gora于今年初毕业于Apache的顶级项目。

Nutch 2支持大数据存储,例如分布式键/值存储Apache Accumulo ,数据序列化系统Apache Avro ,列族数据存储Apache Apache Cassandra ,分布式大数据存储Apache HBase和Hadoop分布式文件系统(HDFS)。

InfoQ与Apache Nutch副总裁兼DigitalPebble Ltd.的Julien Nioche进行了交谈。他还将在下周的Apache Conference Europe上谈论使用Nutch框架进行大规模爬网。

InfoQ:Apache Nutch框架在NoSQL数据库和大数据空间中适合什么位置?

朱利安:纳奇(Nutch)绝对带有'BigData'标签。 一方面,它催生了后来成为Apache Hadoop的事实,它是大规模处理的实际框架。 Nutch专为大规模爬网而设计。 我们的一些用户拥有运行Nutch并拥有数十亿页面的数百个服务器集群。

至于与NoSQL的关系,这正是Nutch 2的目的。 1.x分支依赖于Hadoop数据结构(非常适合批处理),而版本2则依赖Apache GORA在各种NoSQL数据存储上提供统一的前端。

InfoQ:Apache Gora框架来自Nutch项目。 您能否讨论Gora作为NoSQL数据库的ORM框架如何帮助应用程序开发人员?

Julien:我想将GORA视为“用于NoSQL数据库的JDBC”的一种形式,因为它提供了存储的抽象,并允许开发人员编写与任何特定API无关的代码。 GORA API的一部分还涉及在各种后端上提供MapReduce API以及基于Apache AVRO的序列化机制。 当然,它也执行基本的原子GET-PUT-DELETE操作。

Apache GORA现在的版本为2.1,并支持HBase,Cassandra,Accumulo等数据存储,但还具有SQL模块! 这意味着您可以在某些MySQL数据库上运行MapReduce,而某些Nutch 2用户则可以这样做。 我们实际上在Nutch 2上看到的是人们喜欢不同的存储,这就是GORA对我们非常有用的原因。

InfoQ:最新版本还具有由Apache Tika框架处理HTML解析支持。 您能否详细说明此功能的工作原理?

朱利安(Julien): Apache Tika是用Java实现的开放源代码库,它可以从多种格式(HTML,PDF,Word等)中提取文本和元数据,还可以用于语言和MIME类型识别。 实际上,它是现有的第三方解析器(如PDFBox)的包装,并且提供了使用这些包装的统一API。 Tika已经与我们的旧版Nutch解析器一起在Nutch 1.x分支中使用,因此在Nutch 2.0中并不是真正的新颖。 有趣的是,Apache Tika是另一个由Nutch诞生的项目,就像Hadoop和GORA一样。

InfoQ:就即将发布的版本和功能而言,Nutch项目的未来路线图是什么?

朱利安:发布没有严格的时间表。 基本上,当我们认为已经完成大量工作时就会发布版本,这本身取决于我们获得的贡献,用户使用该工具的速度等。Nutch1.x和2.x肯定会共存一段时间,直到2.x已经完全成熟,它们的发行可能不会同时发生。 最近,我们平均每年有2个发行版,但随着2.x越来越受欢迎,我们可能会更频繁地发行新版本。

至于功能,最重要的一项将是升级到SOLR 4及其云功能。 我们可能还会看到更多功能委托给第三方项目,例如Crawler Commons,以便其他项目可以重用和改进代码。 我们还讨论了使索引后端可插入:目前,我们仅支持SOLR(和2.x版的ElasticSearch),但我们希望开发人员能够使用插件机制编写新的索引后端,而不必附带代码。 将页面排名机制委托给Apache Giraph之类的图形库可能会为我们节省大量代码,并且效率更高。 我希望大部分精力将集中在整合2.x的代码上。

他还谈到了该项目的十年完成:

朱利安(Julien): Apache Nutch最近已满10岁,对于一款软件来说已经很老了。 我认为它仍然存在的原因是它擅长于做什么,并且不会尝试重新发明轮子。 有趣的是,Nutch现在受益于诸如Hadoop或Tika之类源自其的项目所取得的进展,我希望GORA也是如此。 Nutch 2是一个令人兴奋的发展,我们看到相当多的新用户拥护它。 一直都有新的贡献者和贡献者加入,这是一个健康项目的标志。

Apache Nutch团队还宣布了7月发布的Apache Nutch v1.5.1。 这是Nutch框架1.5.x主流版本的维护版本。 请查看此版本中所做更改列表,以获取完整的细分。 可以从网站下载搜索框架。 有关Nutch文档和教程,请查看项目Wiki页面。

关于被访者

Julien Nioche是DigitalPebble Ltd的创始人,DigitalPebble Ltd是一家总部位于英国布里斯托尔的咨询公司,专门从事文本工程的开源解决方案。 Julien的专业知识涵盖信息检索,文本分析,信息提取,NLP和机器学习。 他还是Apache Nutch的副总裁,Apache Tika和Apache Gora的提交人,以及其他几个开源项目的贡献者。

翻译自: https://www.infoq.com/articles/nioche-apache-nutch2/?topicPageSponsorship=c1246725-b0a7-43a6-9ef9-68102c8d48e1

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值