Lucene架构简单分析

原创 2007年09月21日 22:39:00

 

 

Author : Summer

Team : I.S.T.O 

Lucene简介
Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包 。目前国内外已有很多基于Lucene的应用。相对其它开源的全文搜索(Egothor,Xapian,MG4J)来说,Lucene已经是非常成熟的工具包。

Lucene 软件包分析
Package: org.apache.lucene.document
这个包提供了一些为封装要索引的文档所需要的类,比如 Document, Field。这样,每一个文档最终被封装成了一个 Document 对象。
Package: org.apache.lucene.analysis
这个包主要功能是对文档进行分词,因为文档在建立索引之前必须要进行分词,所以这个包的作用可以看成是为建立索引做准备工作。
Package: org.apache.lucene.index
这个包提供了一些类来协助创建索引以及对创建好的索引进行更新。这里面有两个基础的类:IndexWriter 和 IndexReader,其中 IndexWriter 是用来创建索引并添加文档到索引中的,IndexReader 是用来删除索引中的文档的。
Package: org.apache.lucene.search
这个包提供了对在建立好的索引上进行搜索所需要的类。比如 IndexSearcher 和 Hits, IndexSearcher 定义了在指定的索引上进行搜索的方法,Hits 用来保存搜索得到的结果。

Lucene建立索引
为了对文档进行索引,Lucene 提供了五个基础的类,他们分别是 Document, Field, IndexWriter, Analyzer, Directory。下面我们分别介绍一下这五个类的用途:
Document 是用来描述文档的,这里的文档可以指一个 HTML 页面,一封电子邮件,或者是一个文本文件。一个 Document 对象由多个 Field 对象组成的。可以把一个 Document 对象想象成数据库中的一个记录,而每个 Field 对象就是记录的一个字段。
Field 对象是用来描述一个文档的某个属性的,比如一封电子邮件的标题和内容可以用两个 Field 对象分别描述。
Analyzer 在一个文档被索引之前,首先需要对文档内容进行分词处理,这部分工作就是由 Analyzer 来做的。Analyzer 类是一个抽象类,它有多个实现。针对不同的语言和应用需要选择适合的 Analyzer。Analyzer 把分词后的内容交给 IndexWriter 来建立索引。
IndexWriter 是 Lucene 用来创建索引的一个核心的类,他的作用是把一个个的 Document 对象加到索引中来。
Directory 这个类代表了 Lucene 的索引的存储的位置,这是一个抽象类,它目前有两个实现,第一个是 FSDirectory,它表示一个存储在文件系统中的索引的位置。第二个是 RAMDirectory,它表示一个存储在内存当中的索引的位置。

Lucene搜索结果
Lucene提供了几个基础的类来完成这个过程,它们分别是呢IndexSearcher, Term, Query, TermQuery, Hits. 下面我们分别介绍这几个类的功能。
Query
这是一个抽象类,他有多个实现,比如TermQuery, BooleanQuery, PrefixQuery. 这个类的目的是把用户输入的查询字符串封装成Lucene能够识别的Query。
Term
Term 是搜索的基本单位,一个Term对象有两个String类型的域组成。生成一个Term对象可以有如下一条语句来完成:Term term = new Term(“fieldName”,”queryWord”); 其中第一个参数代表了要在文档的哪一个Field上进行查找,第二个参数代表了要查询的关键词。
TermQuery
TermQuery是抽象类Query的一个子类,它同时也是Lucene支持的最为基本的一个查询类。生成一个TermQuery对象由如下语句 完成: TermQuery termQuery = new TermQuery(new Term(“fieldName”,”queryWord”)); 它的构造函数只接受一个参数,那就是一个Term对象。
IndexSearcher
IndexSearcher是用来在建立好的索引上进行搜索的。它只能以只读的方式打开一个索引,所以可以有多个IndexSearcher的实例在一个索引上进行操作。
Hits
Hits是用来保存搜索的结果的。

Lucene建立索引步骤
[1]指定索引源文件夹(dataDir)和索引的文件夹(IndexDir);

[2]构造一个IndexWriter:IndexWriter构造器有三个参数,其中第一个参数可以是Lucene内建的类 Directory,也可以是File类型的文件夹路径,还可以是String类型的文件夹路径。第二个参数为语法分析器Analyzer,Lucene 自带了几个分析器的,但是对中文支持都不是很好。最后一个参数是要注意的,Lucene Api解释为“true to create the index or overwrite the existing one; false to append to the existing index”,就是说在这里设定是否增量增加索引,在开发的时候得考虑了,设true将导致每次索引都删除原索引重建,但是如果原来不存在索引而设置为 false也将导致lucene抛出找不到指定文件的错误。

[3]构造Document,通过add方法加入字段:

代码
Document?doc?=?new?Document();??
doc.add(Field.Text("contens",new?FileReader(f)));??
doc.add(Field.UnIndexed("filename",f.getCanonicalPath()));??

其中Feild方法有很多种,可以去车东的文章查看详细。f为dataDir文件夹中的文本文件。

[4]IndexWriter通过addDocument(doc)加入document对象,此时lucene将启动分词器对Document对象进行分词索引;

[5]调用IndexWriter的optimize方法对索引进行优化,因为在索引过程中难免产生文件碎屑,该方法对文件进行优化可以提高检索效率;

[6]关闭IndexWriter:IndexWriter.close()。

Lucene进行搜索步骤
[1]创建IndexSearcher实例,其构造方法有三个,单参数, 可以用String形式的索引文件夹路径;
[2]创建Query :代码
Query?query?=?QueryParser.parse(q,"contents",new?Analyzer());??
  其中q为查询字符串,“contents”为查询字段。
[3]搜索:代码
Hits?hits?=?indexwriter.search(query)??
hits由Document类型组成。可以通过hits.doc(i)获取具体的Document对象

Lucene2.0 Field类的结构
Document可以看作是数据库的一行记录。
Field可以看作是数据库的字段。
Field(String?name, byte[]?value, Field.Store?store)
Field(String?name, Reader?reader)
Field(String?name, Reader?reader, Field.TermVector?termVector)
Field(String?name, String?value, Field.Store?store, Field.Index?index)
Field(String?name, String?value, Field.Store?store, Field.Index?index, Field.TermVector?termVector)

在Field中有三个内部类:Field.Index,Field.Store,Field.termVector,而构造函数也用到了它们。

注意:termVector是Lucene 1.4新增的它提供一种向量机制来进行模糊查询的这个不常用,默认是false,不管是什么对于一般查询无影响。

它们的不同的组合,在全文检索中有着不同的作用。
Field.Index                     Field.Store                 说明
TOKENIZED(分词)          YES                 文章的标题或内容(如果是内                       容的话不能太长)是可以被搜索的
TOKENIZED                    NO                   文章的标题或内容(内容可          以很长)也是可以被看过的
NO                                   YES                 这是不能被搜索的,它只                是被搜索内容的 附属物。如URL等
UN_TOKENIZED            YES/NO           不被分词,它作为一个整                     体被搜索,搜一部分是搜不出来的
NO                  NO                    没有这种用法

而对于Field(String?name, Reader?reader)
 Field(String?name, Reader?reader, Field.TermVector?termVector)
 他们是Field.Index.TOKENIZED和Field.Store.NO的。

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

三层架构的简单分析

  • 2015-12-03 16:20
  • 296KB
  • 下载

Lucene的总体架构

Lucene总的来说是: 一个高效的,可扩展的,全文检索库。全部用Java实现,无须配置。仅支持纯文本文件的索引(Indexing)和搜索(Search)。不负责由其他格式的文件抽取纯文本文件,...

全文检索框架Lucene——架构

Lucene总的来说是: 一个高效的,可扩展的,全文检索库。全部用Java实现,无须配置。仅支持纯文本文件的索引(Indexing)和搜索(Search)。不负责由其他格式的文件抽取纯文本文件,...

打造自己的非Lucene分布式搜索引擎底层架构

打造自己的分布式搜索引擎底层架构(非Lucene)大家知道,搜索引擎技术不仅仅是类似百度首页的应用,还可以衍生出数据分析工具,商务智能工具等许多有卖点的应用,甚至是社会化关系通道的发现。甚至这些非搜索...

Lucene总结:总体架构

Lucene总的来说是: 一个高效的,可扩展的,全文检索库。 全部用Java实现,无须配置。 仅支持纯文本文件的索引(Indexing)和搜索(Search)。 不负责由其他格式的文件抽取纯文...

打造自己的非Lucene分布式搜索引擎底层架构

打造自己的非Lucene分布式搜索引擎底层架构 打造自己的分布式搜索引擎底层架构(非Lucene) 大家知道,搜索引擎技术不仅仅是类似百度首页的应用,还可以衍生出数据分析工具,商务...

lucene的总体架构

本文转载自http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623596.html lucene总的来说是: 一个高效的,可...

Cocos2d 架构简单分析

以Cocos官方提供 Android 示例程序 org.cocos2dx.Cocos2dxSimpleGame 研究了一下Cocos2d , 下面的我的心得 其结构从上到下共分为 4 层...
  • span76
  • span76
  • 2013-03-31 16:53
  • 1148
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)