《开发自己的搜索引擎》读书笔记——Lucene搜索

最新推荐文章于 2023-11-20 14:44:28 发布

麦克斯韦的妖精

最新推荐文章于 2023-11-20 14:44:28 发布

阅读量2.6k

点赞数 1

分类专栏：读书笔记信息检索文章标签： Lucene 搜索引擎 Java IndexSearcher Query

本文链接：https://blog.csdn.net/john_bian/article/details/70148101

版权

信息检索同时被 2 个专栏收录

12 篇文章 1 订阅

订阅专栏

读书笔记

10 篇文章 0 订阅

订阅专栏

使用IndexSearcher进行搜索

Lucene搜索相关的API多数都被包含在org.apache.lucene.search包中。其中，最重要的是IndexSearcher类。

（1）、IndexSearcher有三个public的构造函数，均以索引的存放目录作为参数。

（2）、IndexSearcher的最简单使用

IndexSearcher searcher = newIndexSearcher(INDEX_STORE_PATH);

Term t = newTerm("bookname","女");

Query q = new TermQuery(t);

Hits hits =searcher.search(q);

for(int i =0;i<hits.length();i++){

System.out.println(hits.doc(i));

}

（3）几个类

Query：表示一次查询；

Hits：表示一次查询的结果；

Filter：表示对索引中文档集合的过滤器。它使检索在某一个文档集合的子集中进行；

Sort：对索引的结果进行排序的工具；

HitCollector：对检索结果进行选择的一个工具；

Weight：就是权重，表示一次查询时，索引中的某个文档的重要性。
Hits类

（1）、length（）取得当前结果集的数量；

doc(intn)取得当前结果集中第n个Document；

floatscore(int n)取得当前结果集中第n个Document的得分；

intid(int n)取得当前结果集中第n个Document的索引内部id值

Iteratoriterator（）取得对Hits集合的遍历对象
对搜索结果评分
构建各种Lucene内建的Query对象

TermQuery词条搜索

一个Term对象包括有两个信息。它们分别为词条本身文本内容和词条所在的Field信息。在TermQuery的构造函数中，需要这样一个Term对象来作为其参数。然后，使用IndexSearcher的search(Query)方法得到所需要的结果。
BooleanQuery布尔搜索

在布尔查询的对象中，包含一个子句的集合，各个子句间都是如“与”、“或”这样的布尔逻辑。

BooleanClause.Occur类主要有3种表示，即MUST、MUST_NOT和SHOULD。

SHOULD是一个比较特殊的约束，当它与MUST联用时，它将失去意义。检索的结果为MUST子句的检索结果。当它与MUST_NOT联用时，SHOULD的功能就与MUST一样，就退变为MUST和MUST_NOT的查询结果。当SHOULD与SHOULD联用时，它们就表示一种“或”关系。最终检索结果为所有检索子句的检索结果的并集。

BooleanQuery的默认最大子句数量为1024.如果超过了这个数量，Lucene会抛出一个TooManyClauses的异常。但是用户也可以通过提供的接口来修改这个最大子句数量。

子句并非只能进行TermQuery那样的院子查询，也可以进行如BooleanQuery这样的复合类型查询。
RangeQuery范围搜索

查找一定范围内的文档，这种范围可以是时间、日期、数字大小等。
PrefixQuery前缀搜索

比如，到图书馆查找一本书，可能只记得书名的最前面几个字。
PhraseQuery短语搜索

PhraseQuery提供了一种称为“坡度”的参数，它用于表示词组的两个字之间可以插入无关字的个数。该值默认为0，但是可以通过setSlop方法修改这个值。
MultiPhraseQuery多短语搜索

可以对多个短语同时进行检索。每一次add都是一波并列。
FuzzyQuery模糊搜索

可以进行单字的模糊查找，模糊查找所使用的算法被称为levenshtein算法。这种算法在比较两个字串时，将动作分为3种：

          加一个字母（insert）；

          删一个字母（delete）；

          改变一个字母（substitute）。

两个字串之间进行比较时，就是执行将其中一个字串，转变为另一个字串的操作。每执行一项上述操作，则相应的扣除一定分数。当比较完毕，也就是转变完毕，此时的得分被称为两者之间的距离，也可以叫做模糊度。
WildcardQuery通配符搜索

通常情况下，用“*”表示任意长的字符串，用“？”表示一个单一的字符。
SpanQuery跨度搜索

第三方提供的Query对象：RegexQuery

结合正则表达式。
通过QueryParser转换用户关键字

词条定义。词条与词条之间要用空格隔开；另外有些使用引号包围起来的关键字串均包含两个词条。
在QueryParser中，使用与建立索引时相同的分析器，是为了确保用户在输入、分词时能够和索引中的内容相一致。在QueryParser的构造函数中，要为QueryParser赋一个默认的field。这是因为通常情况下，用户并不知道后台的索引中都有哪些Field，而让用户来指定Field是一个不友好的行为，因此需要告知QueryParser一个默认的Field信息。在用户未指定时，则告知Lucene按默认的Field进行检索。
改变QueryParser默认的布尔逻辑。
短语和QueryParser。

在PharseQuery的最后使用一个“~”来表示其坡度值。
FuzzyQuery的默认匹配度为0.5
建立索引时，如果按照日期表示的字符串来进行索引，那么在RangeQuery时，实际上比较的是字符串的字典顺序。而若首先将日期转化为以毫秒计算的时间，则可以精确地比较两个日期的大小了。建议在使用Lucene时，当遇到日期型数据时，都先使用DateTools进行转换，再进行索引。

麦克斯韦的妖精

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《开发自己的搜索引擎》读书笔记——Lucene搜索

使用IndexSearcher进行搜索Lucene搜索相关的API多数都被包含在org.apache.lucene.search包中。其中，最重要的是IndexSearcher类。（1）、IndexSearcher有三个public的构造函数，均以索引的存放目录作为参数。（2）、IndexSearcher的最简单使用IndexSearcher searcher = newIndex
复制链接

扫一扫