1、lucene 简介

原创 2012年03月28日 20:48:41

是什么

lucene是一款高性能的、可扩展性的信息检索 (IR)工具库。

lucene组件



建立索引步骤:

1、获取内容

      通过一些爬虫来获取索引内容。

lucene作为一款核心搜索库,并不提供任何功能来实现内容获取。

目前有大量的开源爬虫软件可以实现这个功能。

开源爬虫软件:1、Solr   2、Nutch  3、Grub   4、Heritrix    5、Drods    6、Aperture

2、建立文档

获取原始数据后,就需要对这些内容进行索引,首先要将这些内容转换成文档,以供搜索引擎使用。

3、文档分析

将文档分割成一系列独立的原子元素。

4、文档索引

将文档加入到索引

lucene核心类

索引类:IndexWriter、Directory、Analizer、Document、Field


1、IndexWriter

indexWriter索引过程的核心组件。
类负责创建新索引或者打开已有索引,以及向索引中添加、删除或更新被索引文档的信息。
提供针对索引文件的写入操作,但不能用于读取或搜索索引。

2、Directory

描述索引存放位置。

3、Analyzer

分析器。
负责从索引文件中提取词汇单元。

4、Document

一些Field集合。

5、Field

域,索引中的每个文档都包含一个或多个不同命名的域,这些域包含在Field类中。

搜索类:IndexSearcher、Term、Query、TermQuery、TopDocs.

1、IndexSearcher

用于搜索由IndexWriter类创建的索引。

2、Term

索引功能的基本单元。

3、Query

查询类。

4、TermQuery

最基本的查询类型,也是简单查询类型之一。

5、TopDocs

简单的指针容器,只想前N个排名的搜索结果。














相关文章推荐

Elasticsearch学习笔记(1)——Lucene简介

Elasticsearch是一款优秀的全文索引产品。Elasticsearch基于Lucene构建索引和进行查询,理解Lucene的相关知识有助于更深入的学习和使用Elasticsearch。1. L...
  • weitry
  • weitry
  • 2016年10月26日 17:39
  • 295

lucene使用教程1 --简介

简介     Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完...

Lucene底层原理和优化经验分享(1)-Lucene简介和索引原理

基于Lucene检索引擎我们开发了自己的全文检索系统,承担起后台PB级、万亿条数据记录的检索工作,这里向大家分享下Lucene底层原理研究和一些优化经验。   从两个方面介绍:   1. Luce...

Lucene全文检索引擎简介

  • 2014年11月16日 14:20
  • 427KB
  • 下载

Lucene简介

  • 2013年09月02日 11:26
  • 611KB
  • 下载

Lucene之MaxScorer算法简介

简介           名叫“Lucene之MaxScorer算法分析”其实并不准确,因为有Stefan提交的MaxScorer代码尚未提交到Lucene,至今还在讨论中,具体见:https://i...

搜索引擎Lucene 简介.doc

  • 2008年12月11日 13:00
  • 86KB
  • 下载

Lucene 简介以及使用

Lucene 简介以及使用 Lucene,一个基于 Java 的开源的全文搜索工具包,可以方便的嵌入到各种应用系统中,实现针对应用的全文索引以及检索功能。目前是 Apache  jakarta 项...

lucene简介

  • 2016年05月22日 18:57
  • 252KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:1、lucene 简介
举报原因:
原因补充:

(最多只允许输入30个字)