1、es查询dsl的filter与must,term与match的区别
对于 keyword类型的字段而言, 用 term 和 match 都是可以查询的;但对于 text 类型的分词字段而言,只能用match 才能够查询到结果;
根据嵌套类型查询 (filter 与 must 是属于同一个级别的查询方式,都可以作为 query->bool 的属性)
filter: 不计算评分, 查询效率高;有缓存; (推荐)
+ term: 精确匹配;
+ match: 模糊匹配, 倒排索引;
must: 要计算评分,查询效率低;无缓存;
+term: 精确匹配 , 要评分;
+match:模糊匹配, 要评分;
2、关于ES字符串类型(Text vs keyword)的选择
ElasticSearch 5.0以后,string类型有重大变更,移除了
string
类型,string
字段被拆分成两种新的数据类型:text
用于全文搜索的,而keyword
用于关键词搜索。ElasticSearch字符串将默认被同时映射成
text
和keyword
类型,将会自动创建下面的动态映射(dynamic mappings):这就是造成部分字段还会自动生成一个与之对应的“.keyword”字段的原因。
Text vs. keyword
Text:会分词,然后进行索引
支持模糊、精确查询
不支持聚合
keyword:不进行分词,直接索引
支持模糊、精确查询
支持聚合
由于接口中有的需要源字段,而有的需要keyword字段,需要前后端做判断,十分繁琐且很难保持接口统一。
3、多字段聚合
通常情况,terms聚合都是仅针对于一个字段的聚合。因为该聚合是需要把词条放入一个哈希表中,如果多个字段就会造成n^2的内存消耗。
不过,对于多字段,ES也提供了下面两种方式:
- 1 使用脚本合并字段
- 2 使用copy_to方法,合并两个字段,创建出一个新的字段,对新字段执行单个字段的聚合。
4、空字符串判断处理
查询出没有该字段的文档
GET index名称/_count
{
"query": {
"bool": {
"must_not": [
{
"exists": {
"field": "字段名称"
}
}
]
}
}
}
字段值为空字符串
GET index名称/_count
{
"query": {
"bool": {
"must_not": [
{
"wildcard": {
"字段名称": {
"value": "*"
}
}
}
]
}
}
}
字段值不为空字符串的文档
GET index名称/_count
{
"query": {
"wildcard": {
"字段名称": {
"value": "*"
}
}
}
}