1.什么是Nutch
Nutch 是一个开源Java 实现的搜索引擎,你可以在这里找到它:nutch.apache.org。
Nutch可分为爬虫(crawler)和查询(searcher)。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。
Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在硬件平台上,例如将Crawler和Searcher分别放在两个主机上,这样可以提升性能。
你知道吗?
a. 通过nutch,诞生了hadoop、tika、gora。
b. nutch通过ivy来进行依赖管理(1.2之后)。
c. nutch是使用svn进行源代码管理的。
d. lucene、nutch、hadoop,在搜索界相当有名。