Nutch是一个完全用Java语言写成的开放源码搜索引擎。它采用Lucene作为全文检索工具,使用Hadoop作为分布式系统平台。事实上这三个项目都是由Doug Cutting创建的,而Hadoop本来只是Nutch的一部分。
Nutch的上一个版本是两年前发布的0.9版,在那之后就一直不断的有人询问什么时候会发布正式的1.0版。直到一个多月前,才有人透露Nutch 1.0会在今年2月发布。可是它还是跳了一段时间的票。现在,Nutch的开发人员正在他们的邮件列表上投票,是不是把当前的rc1版本正式发布出去。根据目前的投票情况来看,如果不再出意外(之前的rc0就遭遇了意外),很快我们就能见到正式发布的1.0版了。
如果有人迫不及待,现在可以下载这个rc1版本了。它应该跟正式版是一样的。
顺便提一下,Apache有一个基于Hadoop的机器学习平台Mahout,但目前还相当不完善。另外有个暨南大学的小伙子创建了Redpoll,同样也是基于Hadoop的开放源码的并行机器学习算法平台。
===3月19日更新===
Nutch 1.0的新特性之一是可以很方便的与Solr配合使用。Nutch的开发者写了如何配置的教程。