5.搜索之路——solr与lucene和nutch关系

最新推荐文章于 2017-06-09 17:25:59 发布

badman250

最新推荐文章于 2017-06-09 17:25:59 发布

阅读量3w

点赞数

分类专栏： Nutch-java

本文链接：https://blog.csdn.net/notbaron/article/details/52140178

版权

Nutch-java 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文介绍搜索引擎关键技术，包括Lucene、Solr和Nutch等组件的作用及相互关系。Lucene为搜索引擎内核，提供索引和搜索功能；Solr在此基础上增加了Web服务功能；Nutch则负责网页抓取与内容提取。

摘要由CSDN通过智能技术生成

5.搜索之路——solr与lucene和nutch关系

搜索引擎所涉及到的技术包括数据结构、数据分析、数据处理、数据存储及搜索等，这些技术统称为数据检索(Information retrieval, IR)。搜索引擎的种类众多，用途各异.

lucene

apache lucene是apache下一个著名的开源搜索引擎内核，基于Java技术，处理索引，拼写检查，点击高亮和其他分析，分词等技术。Lucene并不关心数据源、数据格式、甚至数据的语言，Lucene更不会关心搜索的界面会是怎样，这些工作都是由基于Lucene的程序来完成，因此Lucene使用于几乎所有以文本内容为主的数据检索功能，全球成千上万、类型各异、数据规模从少量到海量的应用与网站的成功案例

solr

Lucene主要实现索引和查询的核心功能及API，但并不是一个完整的产品，而Solr实现了一些常用扩展并提供基于HTTP的Web服务，并且提供灵活的Schema配置、多核心支持、面搜索(Faceted Search)等。对于不是以Java为主要开发语言的项目来说，Solr可以非常快速、有效地集成搜索服务

Solr 是一个开源的企业级搜索服务器，底层使用易于扩展和修改的Java 来实现。 Solr 主要特性有：强大的全文检索功能，高亮显示检索结果，动态集群，数据库接口和电子文档（Word ，PDF 等）的处理。而且Solr 具有高度的可扩展，支持分布搜索和索引的复制。

Solr 底层的核心技术是使用Apache Lucene 来实现的，简单的说Solr 是Lucene 的服务器化。需要注意的是Solr 并不是简单的对Lucene 进行封装，它所提供的大部分功能都区别于Lucene 。

solr则是基于lucene的搜索界面。提供XML/HTTP 和JSON/Python/Ruby API，提供搜索入口，点击高亮，缓存，备份和管理界面。