MySQL 全文搜索相关度_ElasticStack学习（九）：深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分...

最新推荐文章于 2024-03-22 17:23:22 发布

乔德地

最新推荐文章于 2024-03-22 17:23:22 发布

阅读量296

点赞数

文章标签： MySQL 全文搜索相关度

本文链接：https://blog.csdn.net/weixin_35523135/article/details/114777974

版权

本文介绍了ElasticSearch中的词项搜索、全文本查询和相关性算分原理。详细讲解了Term查询、Match Query的区别，以及如何在结构化搜索中处理日期、数值范围。还探讨了TF-IDF和BM25算法在相关性算分中的应用。

摘要由CSDN通过智能技术生成

一、基于词项与全文的搜索

1、词项

Term(词项)是表达语意的最小单位，搜索和利用统计语言模型进行自然语言处理都需要处理Term。

Term的使用说明：

1)Term Level Query：Term Query、Range Query、Exists Query、Prefix Query、Wildcard Query；

2)在ES中，对于Term查询的输入是不做分词处理的，会将输入作为一个整体，在倒排索引中查找准确的词项，并且使用相关度算分公式为每个包含该词项的文档进行相关度算分；

3)通过Constant Score将查询转换成一个Filtering，以避免处分，利用缓存，提高查询性能；

2、词项查询使用

1)批量创建一个索引，并插入数据，查看该索引的mapping，会发现相应字段是text类型，同时有子字段keyword。

2)现进行对name或stuId字段的查询。

3)通过上述对两个字段不同查询条件的，以及查询方式的对比，我们可以总结如下：

a)对于字段类型为text的字段，其会按照默认analyzer进行分词，如下图所示：STU-001被分词为两个stu和001，所以当查询stu-001或者STU-001是，是无法被索引到相当的文档上去的；

同理，也就是为什么查询name时，用john可以查询到，用John就无法查询到的原因。因为默认analyzer:standard会将字段name中的大写字母转化为小写，而当以Term方式查询John，Term因为不做分词处理(原样查询)，也就无法查询到能够匹配John的信息。而用john查询正好可以查询到相应的文档。

b)基于此种情况下，用stuId.keyword或者name.keyword，进行原样查询信息查询时，就可以查询到相应的文档。这是因为相应字段中的子字段keyword是不做分词处理的，所以如果要查询字段中原始内容一样的信息时，要加上column.keyword。

4)词项算分使用

通过上图中的查询结果可以看到，相应结果有一个指标_score，这是相应查询文档的算分。

如果在查询中，希望跳过算分的过程，忽略TF-IDF(TF【词频】：Term Frequency；IDF【逆文本频率指数】：Inverse Document Frequency)的计算，以避免相关性算分而引发的性能开销，可以使用constant_score转化为Filter，取消算分的环节。同时Filter可以有效利用缓存，以提升性能。