lucene学习笔记高级篇

最新推荐文章于 2020-02-28 20:28:43 发布

flashdream8

最新推荐文章于 2020-02-28 20:28:43 发布

阅读量229

点赞数

分类专栏： lucene 文章标签： lucene 全文检索 Apache Cache F#

本文链接：https://blog.csdn.net/flashdream8/article/details/83330036

版权

lucene 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

一、环境

需要导入 lucene.jar 包（在 lucene.apache.org 下载）

二、基本概念

1 ． Lucene 的工作流程：

(1) 使用 IndexWriter ，在指定的目录建立索引的文件
(2) 将需要检索的数据转换位 Document 的 Filed 对象，然后将 Document 用 IndexWriter 添加倒索引的文件中
   (3) 处理索引信息，关闭 IndexWriter 流
   (4) 创建搜索的 Query
   (5) 给 IndexSearcher

2 ． Lucene 的字段类型

Lucene 有四种不同的字段类型： Keyword ， UnIndexed ， UnStored 和 Text ，用于指定建立最佳索引。
?        Keyword 字段是指不需要分析器解析但需要被编入索引并保存到索引中的部分。 JavaSourceCodeIndexer 类使用该字段来保存导入类的声明。
?        UnIndexed 字段是既不被分析也不被索引，但是要被逐字逐句的将其值保存到索引中。由于我们一般要存储文件的位置但又很少用文件名作为关键字来搜索，所以用该字段来索引 Java 文件名。
?        UnStored 字段和 UnIndexed 字段相反。该类型的 Field 要被分析并编入索引，但其值不会被保存到索引中。由于存储方法的全部源代码需要大量的空间。所以用 UnStored 字段来存储被索引的方法源代码。可以直接从 Java 源文件中取出方法的源代码，这样作可以控制我们的索引的大小。
?        Text 字段在索引过程中是要被分析、索引并保存的。类名是作为 Text 字段来保存。下表展示了 JavaSourceCodeIndexer 类使用 Field 字段的一般情况。

3 ．基本概念（与传统表的对比）：

Lucene	传统表	说明
IndexWriter	table
Document	一条记录
Field	每个字段	分为可被索引的，可切分的，不可被切分的，不可被索引的几种组合类型
Hits	RecoreSet	结果集

IndexWriter 提供了一些参数可供设置，列表如下

	属性	默认值	说明
mergeFactor	org.apache.lucene.mergeFactor	10	控制 index 的大小和频率 , 两个作用 1. 一个段有多少 document 2. 多少个段合成一个大段
maxMergeDocs	org.apache.lucene.maxMergeDocs	Integer.MAX_VALUE	限制一个段中的 document 数目
minMergeDocs	org.apache.lucene.minMergeDocs	10	缓存在内存中的 document 数目，超过他以后会写入到磁盘
maxFieldLength		1000	一个 Field 中最大 Term 数目，超过部分忽略，不会 index 到 field 中，所以自然也就搜索不到

这些参数的的详细说明比较复杂： mergeFactor 有双重作用

(1) 设置每 mergeFactor 个 document 写入一个段，比如每 10 个 document 写入一个段

(2) 设置每 mergeFacotr 个小段合并到一个大段，比如 10 个 document 的时候合并为 1 小段，以后有 10 个小段以后合并到一个大段，有 10 个大段以后再合并，实际的 document 数目会是 mergeFactor 的指数

简单的来说 mergeFactor 越大，系统会用更多的内存，更少磁盘处理，如果要打批量的作 index ，那么把 mergeFactor 设置大没错， mergeFactor 小了以后， index 数目也会增多， searhing 的效率会降低，但是 mergeFactor 增大一点一点，内存消耗会增大很多 ( 指数关系 ), 所以要留意不要” out of memory”
把 maxMergeDocs 设置小，可以强制让达到一定数量的 document 写为一个段，这样可以抵消部分 mergeFactor 的作用 .
minMergeDocs 相当于设置一个小的 cache, 第一个这个数目的 document 会留在内存里面，不写入磁盘。这些参数同样是没有最佳值的，必须根据实际情况一点点调整。
maxFieldLength 可以在任何时刻设置，设置后，接下来的 index 的 Field 会按照新的 length 截取，之前已经 index 的部分不会改变。可以设置为 Integer.MAX_VALUE

4 ．几种查询方式

查询方式	说明
TermQuery	条件查询例如： TermQuery tquery=new TermQuery(new Term("name","jerry")); name: 字段名 jerry: 要搜索的字符串
MultiTermQuery	多个字段进行同一关键字的查询 Query query= null; Query =MultiFieldQueryParser.parse(" 我 ",new String[] {"title","content"},analyzer); Searcher searcher=new IndexSearcher(indexFilePath); Hits hits=searcher.search(query);
BooleanQuery	例如： BooleanQuery bquery=new BooleanQuery(); bquery.add(query,true,false); bquery.add(mquery,true,false); bquery.add(tquery,true,false); Searcher searcher=new IndexSearcher(indexFilePath); Hits hits=searcher.search(bquery);
WildcardQuery	语义查询（通配符查询）例： Query query= new WildcardQuery(new Term("sender","davy"));
PhraseQuery	短语查询
PrefixQuery	前缀查询
PhrasePrefixQuery	短语前缀查询
FuzzyQuery	模糊查询
RangeQuery	范围查询
SpanQuery	范围查询

在全文检索时建议大家先采用语义时的搜索，先搜索出有意义的内容，之后再进行模糊之类的搜索

(1) 联合两个索引查询，已解决：
IndexSearcher[] searchers = new IndexSearcher[2];

searchers[0] = new IndexSearcher(m_indexpath);
searchers[1] = new IndexSearcher(m_outindexpath);

MultiSearcher multiSearcher = new MultiSearcher(searchers);

(2) 还有个进行多条件搜索 and 与 or 的操作————
用 MultiFieldQueryParser
建议重新封装
MultiFieldQueryParser.Parser(p[],d[],f[],analyer) 成 or 与 and 操作合一
或者
BooleanQuery m_BooleanQuery = new BooleanQuery();
Query query = QueryParser.Parse(m_SearchText, "INSTRUMENT_NAME", analyzer);
Query query2 = QueryParser.Parse(m_SearchText2, "INSTRUMENT_NAME2", analyzer);
m_BooleanQuery.Add(query, true, false);
m_BooleanQuery.Add(query2, true, false);

(3) 复合查询（多种查询条件的综合查询）

Query query=MultiFieldQueryParser.parse(" 索引 ”,new String[]

{"title","content"},analyzer);
Searcher searcher=new IndexSearcher(indexFilePath);
Hits hits=searcher.search(query);
for (int i = 0; i < hits.length(); i++)

{
System.out.println(hits.doc(i).get("name"));
}

5. 为查询优化索引 (index)

Indexwriter.optimize() 方法可以为查询优化索引（ index ），之前提到的参数调优是为 indexing 过程本身优化，而这里是为查询优化，优化主要是减少 index 文件数，这样让查询的时候少打开文件，优化过程中， lucene 会拷贝旧的 index 再合并，合并完成以后删除旧的 index ，所以在此期间，磁盘占用增加， IO 符合也会增加，在优化完成瞬间，磁盘占用会是优化前的 2 倍 , 在 optimize 过程中可以同时作 search 。

4.org.apache.lucene.document.Field
即上文所说的“字段”，它是 Document 的片段 section 。

Field 的构造函数：

Field(String name, String string, boolean store, boolean index, boolean token) 。

Indexed ：如果字段是 Indexed 的，表示这个字段是可检索的。

Stored ：如果字段是 Stored 的，表示这个字段的值可以从检索结果中得到。

Tokenized ：如果一个字段是 Tokenized 的，表示它是有经过 Analyzer 转变后成为一个 tokens 序列，在这个转变过程 tokenization 中， Analyzer 提取出需要进行索引的文本，而剔除一些冗余的词句（例如： a ， the,they 等，详见 org.apache.lucene.analysis.StopAnalyzer.ENGLISH_STOP_WORDS 和 org.apache.lucene.analysis.standard.StandardAnalyzer(String[] stopWords) 的 API ）。 Token 是索引时候的 .

类型	Analyzed	Indexed	Stored	说明
Field.Keyword(String,String/Date)	N	Y	Y	这个 Field 用来储存会直接用来检索的比如 ( 编号 , 姓名 , 日期等 )
Field.UnIndexed(String,String)	N	N	Y	不会用来检索的信息 , 但是检索后需要显示的 , 比如 , 硬件序列号 , 文档的 url 地址
Field.UnStored(String,String)	Y	Y	N	大段文本内容 , 会用来检索 , 但是检索后不需要从 index 中取内容 , 可以根据 url 去 load 真实的内容
Field.Text(String,String)	Y	Y	Y	检索 , 获取都需要的内容 , 直接放 index 中 , 不过这样会增大 index
Field.Text(String,Reader)	Y	Y	N	如果是一个 Reader, lucene 猜测内容比较多 , 会采用 Unstored 的策略 .

《转自： http://www.tot.name/show/12/86/20061207100943.htm》

flashdream8

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
lucene学习笔记高级篇

一、环境需要导入lucene.jar包（在lucene.apache.org下载）二、基本概念1．Lucene的工作流程：(1) 使用IndexWriter，在指定的目录建立索引的文件 (2) 将需要检索的数据转换位Document的Filed对象，然后将Document用IndexWriter添加倒索引的文件中 (3) 处理索引信息，关闭IndexWriter流 (4) 创建搜...
复制链接

扫一扫