elasticsearch中DSL搜索

最新推荐文章于 2024-05-08 19:07:09 发布

赛赛liangks

最新推荐文章于 2024-05-08 19:07:09 发布

阅读量231

点赞数

分类专栏： elasticsearch 文章标签： dsl搜索 elasticsearch

本文链接：https://blog.csdn.net/qq_34706514/article/details/119787394

版权

elasticsearch 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

入门语法

请求参数的查询(QueryString)

查询[字段]包含[内容]的文档

GET /{index}/_doc/_search?q=desc:张三 
GET /{index}/_doc/_search?q=nickname:张&q=age:25

text与keyword搜索对比测试(keyword不会被倒排索引，不会被分词)
这种方式称之为QueryString查询方式，参数都是放在url中作为请求参数的。

DSL基本语法

QueryString用的很少，一旦参数复杂就难以构建，所以大多查询都会使用dsl来进行查询更好。

Domain Specific Language
特定领域语言
基于JSON格式的数据查询
查询更灵活，有利于复杂查询
语法格式为一个json object，内容都是key-value键值对，json可以嵌套。
key可以是一些es的关键字，也可以是某个field字段
DSL格式语法：

查询

POST /{index}/_doc/_search 
{ 
	"query": { 
		"match": { 
			"desc": "CSND" 
		} 
	} 
}
## 查询

判断某个字段是否存在

{ 
	"query": { 
		"exists": { 
			"field": "desc" 
		} 
	} 
}

查询所有数据并指定字段

# select id,naickname,age from table
{ 
	"query": { 
		"match_all": {} 
	},
	"_source": [
		"id", 
		"nickname", 
		"age"
	] 
}

分页查询

{ 
	"query": { 
		"match_all": {} 
	},
	# 从第几条开始
	"from": 0,
	# 每页显示多少 
	"size": 10 
}

深度分页

深度分页其实就是搜索的深浅度，比如第1页，第2页，第10页，第20页，是比较浅的；第10000页，第20000页就是很深了。
我们在获取第9999条到10009条数据的时候，其实每个分片都会拿到10009条数据，然后集合在一起，总共是10009*3=30027条数据，针对30027数据再次做排序，会获取最后10条数据。
如此一来，搜索得太深，就会造成性能问题，会耗费内存和占用cpu。而且es为了性能，他不支持超过一万条数据以上的分页查询。
如何解决深度分页带来的问题：应该避免深度分页操作（限制分页页数），比如最多只能提供100页的展示，从第101页开始就没了，毕竟用户也不会搜的那么深，我们平时搜索淘宝也就看个10来页就顶多了。
在这里插入图片描述

es默认限制10000条数据

# 提升搜索量 通过设置index.max_result_window来突破10000数据
PUT /shop/_settings 
{ 
	"index.max_result_window": "20000" 
}

搜索词不分词term

# 搜索词不分词term，直接精确搜索
# 搜索的时候会把用户搜索内容作为一整个关键词去搜索，而不会对其进行分词后再搜索
# match会对字段先进行分词（其实就是全文检索），在查询，而term则不会，直接把字段作为一个整的词汇去搜索。
{ 
	"query": { 
		"term": { 
			"desc": "慕课网" 
		} 
	} 
}

terms多个词语匹配检索

# 相当于是tag标签查询，比如博客的一些文章会打上spring、java这样的标签，可以完全匹配做类似标签的查询
{ 
	"query": { 
		"terms": { 
			"desc": [
				"spring", 
				"java", 
				"c"
			] 
		} 
	} 
}

match_phrase 短语匹配

# match：分词后只要有匹配就返回，match_phrase：分词结果必须在text字段分词中都包含，而且顺序必须相同，而且必须都是连续的。（搜索比较严格）
# slop 中间允许跳过的词数量
{ 
	"query": { 
		"match_phrase": { 
			"desc": { 
				"query": "大学 毕业 研究生", 
				"slop": 2 
			} 
		} 
	} 
}

match（operator）

# or：搜索内容分词后，只要存在一个词语匹配就展示结果
# and：搜索内容分词后，都要满足词语匹配
{ 
	"query": { 
		"match": { 
			"desc": { 
				"query": "xbox游戏机", 
				"operator": "or" 
			} 
		} 
	} 
}

minimum_should_match: 最低匹配精度

# 至少有[分词后的词语个数]x百分百，得出一个数据值取整。
# 举个例子：当前属性设置为 70 ，若一个用户查询检有10个词语，那么匹配度按照 10x70%=7，则desc中至少需要有7个词语匹配，就展示
# minimum_should_match 也能设置具体的数字，表示个数
{ 
	"query": { 
		"match": { 
			"desc": {
				 "query": "女友生日送我好玩的xbox游戏机",
				 "minimum_should_match": "60%" 
			 } 
		 } 
	 } 
 }

根据文档主键ids搜索

{ 
	"query": { 
		"ids": { 
			"type": "_doc",
			"values": [
				"1001","1002"
			]
		 } 
	 } 
 }

multi_match 满足使用match在多个字段中进行查询的需求

{ 
	"query": { 
		"multi_match": { 
			"query": "张三学习", 
			"fields": ["desc", "nickname"] 
		} 
	} 
}

boost 权重

# 为某个字段设置权重，权重越高，文档相关性得分就越高。通畅来说搜索商品名称要比商品简介的权重更高。
# nickname^10 代表搜索提升10倍相关性，也就是说用户搜索的时候其实以这个nickname为主，desc为辅，nickname的匹配相关度当然要提高权重比例了。
{ 
	"query": { 
		"multi_match": { 
			"query": "张三学习", 
			"fields": ["desc", "nickname^10"] 
		} 
	} 
}

布尔查询

可以组合多重查询

must：查询必须匹配搜索条件，譬如 and
should：查询匹配满足1个以上条件，譬如 or
must_not：不匹配搜索条件，一个都不要满足

{ 
	"query": { 
		"bool": { 
			"must": [],
			"should": [],
			"must_not": []
		} 
	} 
}

过滤器

对搜索出来的结果进行数据过滤。不会到es库里去搜，不会去计算文档的相关度分数，所以过滤的性能会比较高，过滤器可以和全文搜索结合在一起使用。

query：根据用户搜索条件检索匹配记录
post_filter：用于查询后，对结果数据的筛选
gte：大于等于
lte：小于等于
gt：大于
lt：小于
（除此以外还能做其他的match等操作也行）

{ 
	"query": {
		"match": {
			"desc": "游戏" 
		} 
	},
	"post_filter": { 
		"range": {
			"money": {
				"gt": 60, 
				"lt": 1000 
			} 
		} 
	} 
}

排序

es的排序同sql，可以desc也可以asc。也支持组合排序。
对文本排序
由于文本会被分词，所以往往要去做排序会报错，通常我们可以为这个字段增加额外的一个附属属性，类型为keyword，用于做排序。

{ 
	"query": {
		"match": {
			"desc": "游戏" 
		} 
	},
	"sort": [ 
		{ 
			"age": "desc" 
		},
		{ 
			"money": "desc" 
		}
	] 
}

高亮highlight

{ 
	"query": { 
		"match": { 
			"desc": "慕课网" 
		} 
	},
	"highlight": { 
		# 自定义标签
		"pre_tags": ["<span>"], 
		# 自定义标签
		"post_tags": ["</span>"], 
		"fields": { 
			"desc": {} 
		} 
	} 
}

prefix根据前缀去查询

fuzzy模糊搜索

模糊搜索，并不是指的sql的模糊搜索，而是用户在进行搜索的时候的打字错误现象，搜索引擎会自动纠正，然后尝试匹配索引库中的数据。

wildcard占位符查询

？：1个字符
*：1个或多个字符

scroll 游标查询

一次性查询1万+数据，往往会造成性能影响，因为数据量太多了。这个时候可以使用滚动搜索，也就是 scroll 。
滚动搜索可以先查询出一些数据，然后再紧接着依次往下查询。在第一次查询的时候会有一个滚动id，相当于一个锚标记，随后再次滚动搜索会需要上一次搜索，根据这个进行下一次的搜索请求。每次搜索都是基于一个历史的数据快照，查询数据的期间，如果有数据变更，那么和搜索是没有关系的，搜索的内容还是快照。
官方文档：https://www.elastic.co/guide/cn/elasticsearch/guide/current/scroll.html

# scroll=1m，相当于是一个session会话时间，搜索保持的上下文时间为1分钟。
POST /shop/_search?scroll=1m 
{ 
	"query": { 
		"match_all": { } 
	},
	"sort" : ["_doc"], 
	"size": 5 
}
POST /_search/scroll 
{ 
	"scroll": "1m", 
	"scroll_id" : "你最后的scroll_id" 
}

mget批量查询

查询几个id就会返回几个数据，没有的数据也会返回，只不过found=false

found：true查询出来了数据，false无数据

POST /{index}/_doc/_search
{
	"ids" : ["1001","1003","10011"]
}

赛赛liangks

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
elasticsearch中DSL搜索

入门语法请求参数的查询(QueryString)查询[字段]包含[内容]的文档GET /{index}/_doc/_search?q=desc:张三 GET /{index}/_doc/_search?q=nickname:张&q=age:25text与keyword搜索对比测试(keyword不会被倒排索引，不会被分词)这种方式称之为QueryString查询方式，参数都是放在url中作为请求参数的。DSL基本语法QueryString用的很少，一旦参数复杂就难以构建，所以大多查
复制链接

扫一扫