ES-搜索和查询

最新推荐文章于 2024-06-02 23:12:28 发布

蓝天⊙白云

最新推荐文章于 2024-06-02 23:12:28 发布

阅读量1.9k

点赞数

文章标签： elasticsearch 搜索引擎全文检索

本文链接：https://blog.csdn.net/qq_38747892/article/details/129584968

版权

Query DSL(Domain Specific Language)
1 查询上下文
使用query关键字进行检索，倾向于相关度搜索，故需要计算评分。搜索是Elasticsearch最关键和重要的部分。
2 相关度评分：_score
概念：相关度评分用于对搜索结果排序，评分越高则认为其结果和搜索的预期值相关度越高，即越符合搜索预期值。在7.x之前相关度评分默认使用TF/IDF算法计算而来，7.x之后默认为BM25。

排序：相关度评分为搜索结果的排序依据，默认情况下评分越高，则结果越靠前。

3 元数据：_source
禁用_source：

好处：节省存储开销

坏处：

不支持update、updatebyquery和reindex API。
不支持高亮。
不支持reindex、更改mapping分析器和版本升级。
通过查看索引时使用的原始文档来调试查询或聚合的功能。
将来有可能自动修复索引损坏。
总结：如果只是为了节省磁盘，可以压缩索引比禁用_source更好。

数据源过滤器：
Excluding：结果中不要返回哪些field，不返回的field不代表不能通过该字段进行检索，因为元数据不存在不代表索引不存在

在mapping中定义过滤：支持通配符，但是这种方式不推荐，因为mapping不可变

console PUT product { “mappings”: { “_source”: { “includes”: [ “name”, “price” ], “excludes”: [ “desc”, “tags” ] } } }

常用过滤规则

“_source”: “false”,
“_source”: “obj.",
“_source”: [ "obj1.”, “obj2." ],
“_source”: { “includes”: [ "obj1.”, “obj2." ], “excludes”: [ ".description” ] }

4 Query String

查询所有：

GET /product/_search

带参数：

GET /product/_search?q=name:xiaomi

分页：
GET /product/_search?from=0&size=2&sort=price:asc

精准匹配 exact value
GET /product/_search?q=date:2021-06-01

_all搜索相当于在所有有索引的字段中检索
GET /product/_search?q=2021-06-01

DELETE product # 验证_all搜索 PUT product { “mappings”: { “properties”: { “desc”: { “type”: “text”, “index”: false } } } } # 先初始化数据 POST /product/_update/5 { “doc”: { “desc”: “erji zhong de kendeji 2021-06-01” } }

5 全文检索-Fulltext query
GET index/_search { “query”: { *** } }

match：匹配包含某个term的子句 —模糊查询
match_all：匹配所有结果的子句
multi_match：多字段条件
match_phrase：短语查询 —精确匹配

6 精准查询-Term query
term：匹配和搜索词项完全相等的结果
term和match_phrase区别:
matchphrase 会将检索关键词分词, matchphrase的分词结果必须在被检索字段的分词中都包含，而且顺序必须相同，而且默认必须都是连续的
term是将传入的文本原封不动地（不分词）拿去查询。

term和keyword区别
term是对于搜索词不分词,

keyword是字段类型,是对于source data中的字段值不分词

terms：匹配和搜索词项列表中任意项匹配的结果
range：范围查找

match用于进行模糊匹配，会对输入进行分词处理后再去查询，部分命中的结果也会按照评分由高到低显示出来。

7 过滤器-Filter
console GET _search { “query”: { “constant_score”: { “filter”: { “term”: { “status”: “active” } } } } }

filter：query和filter的主要区别在： filter是结果导向的而query是过程导向。query倾向于“当前文档和查询的语句的相关度”而filter倾向于“当前文档和查询的条件是不是相符”。即在查询过程中，query是要对查询的每个结果计算相关性得分的，而filter不会。另外filter有相应的缓存机制，可以提高查询效率。

8 组合查询-Bool query
bool：可以组合多个查询条件，bool查询也是采用more_matchesisbetter的机制，因此满足must和should子句的文档将会合并起来计算分值

must：必须满足子句（查询）必须出现在匹配的文档中，并将有助于得分。
filter：过滤器不计算相关度分数，cache☆子句（查询）必须出现在匹配的文档中。但是不像 must查询的分数将被忽略。Filter子句在filter上下文中执行，这意味着计分被忽略，并且子句被考虑用于缓存。
should：可能满足 or子句（查询）应出现在匹配的文档中。
must_not：必须不满足不计算相关度分数 not子句（查询）不得出现在匹配的文档中。子句在过滤器上下文中执行，这意味着计分被忽略，并且子句被视为用于缓存。由于忽略计分，0因此将返回所有文档的分数。
minimumshouldmatch：参数指定should返回的文档必须匹配的子句的数量或百分比。如果bool查询包含至少一个should子句，而没有must或 filter子句，则默认值为1。否则，默认值为0

蓝天⊙白云

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ES-搜索和查询

使用query关键字进行检索，倾向于相关度搜索，故需要计算评分。搜索是Elasticsearch最关键和重要的部分。概念：相关度评分用于对搜索结果排序，评分越高则认为其结果和搜索的预期值相关度越高，即越符合搜索预期值。在7.x之前相关度评分默认使用TF/IDF算法计算而来，7.x之后默认为BM25。排序：相关度评分为搜索结果的排序依据，默认情况下评分越高，则结果越靠前。
复制链接

扫一扫