elasticsearch 查询聚合操作

小橘快跑

已于 2024-04-19 11:52:51 修改

阅读量1.5k

点赞数 17

分类专栏： elasticsearch 文章标签： java elasticsearch

于 2024-04-16 10:51:16 首次发布

本文链接：https://blog.csdn.net/qq_50761817/article/details/137816648

版权

elasticsearch 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一、es相关查询

1、多维度查询关键词：bool must match

{
  "query": {
    "bool": {
		"must": [
		  	{
		    	"match":{"server_name":"www.test.com"}
      		},
		    {
				"match":{"status":"404"}
		    }
		]
    }
  }
}

2、模糊查询关键词：wildcard

匹配出状态码status 以 5 开头的日志

{
  "query": {
    "wildcard": {"status": "5*"}
  }
}

3、指定某个值同时匹配多个字段关键词：multi_match

query 要查询的值
fields 要匹配的字段【数组】
匹配出字段code和status 为400的所有日志

{
  "query": {
    "multi_match": {
        "query":    "400",
        "fields":   [ "code", "status" ]
    }
  }
}

4、一个字段查询多个值

关键词：terms
{ “字段”：[ 要匹配的多个值 ] }

{
  "query": {
    "terms": {
        "status": ["400","402","406"]
    }
  }
}

5、多种组合查询

关键词：bool must should range size sort

{
  "query": {
    "bool": {
		"must": [
		    {
		        "bool":{
		        	"should":[
			          	{"wildcard": {"status": "5*"}},
                    	{"terms": {"status": ["400","402","406"]}}
		         	]
		        }
		    },
            { 
              "range": {
              	"time": {"gte": "2022-05-22T12:34:00.000+0800",
                "lte": "2022-05-22T12:34:01.000+0800"}
              }
            }
        ]
	}
  },
  "size":100,
  "sort": [
    {
      "time": {
        "order": "desc"
      }
    }
  ]
}

6、es默认时间格式查询/ java时间查询

{
  "query": {
    "bool": {
      "must": [
        {
          "range": {
            "createTime": {
              "gte": "2022-05-22T12:34:00.000+0800",
              "lte": "2022-05-22T12:34:01.000+0800"
            }
          }
        }
      ]
    }
  },
  "size":20
}

java 查询时：
实体字段添加： @JsonFormat(pattern = "yyyy-MM-dd HH:mm:ss",timezone = "GMT+8")
代码中转换格式：SimpleDateFormat format = new SimpleDateFormat("yyyy-MM-dd'T'HH:mm:ss.SSSZ");
新建es格式化date："format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis"

7、单字段排序

{
  "sort": {
    "createTime": {
      "order": "asc"
    }
  }
}

8、多字段排序

{
  "sort":[{
    "createTime": {
      "order": "asc"
    },
    "updateTime": {
      "order": "desc"
    }]
  }
}

9、条件查询加聚合

{
  "query": {
    "bool": {
      "must": [
        {
          "range": {
            "createTime": {
              "from": "2022-05-16T00:00:00.000+0800"
            }
          }
        },
        {
          "match": {
            "tonalState": 2
          }
        }
      ]
    }
  },
  "aggs": {
    "brandAgg": {
      "terms": {
        "field": "mediaLink"
      }
    }
  },
  "size": 0
}

10、高量查询

GET /megacorp/employee/_search
{
    "query" : {
        "match_phrase" : {
            "about" : "rock climbing"
        }
    },
    "highlight": {
        "fields" : {
            "about" : {}
        }
    }
}

11、自定义高亮

{
  "query": {
    "term": {
      "description": {
        "value": "iphone"
      }
    }
  },
  "highlight": {
    "post_tags": ["</span>"], 
    "pre_tags": ["<span style='color:red'>"],
    "fields": {
      "*":{}
    }
  }
}

12、聚合查询

    publicsentiment/_search  GET
    {
      "aggs": {
        "mediaLink": {
          "terms": {
            "field": "mediaLink"
          },
          "aggs": {
            "dataExist": {
              "terms": {
                "field": "dataExist"
              }
            }
          }
        }
      },
      "size": 0
    }

13、查询指定字段

includes：来指定想要显示的字段
excludes：来指定不想要显示的字段

GET /heima/_search

{
 "_source": {
   "includes":["title","price"]
 },
 "query": {
   "term": {
     "price": 2699
   }
 }
}

14、模糊查询(fuzzy)

fuzzy 查询是 term 查询的模糊等价。它允许用户搜索词条与实际词条的拼写出现偏差，但是偏差的编辑距离不得超过2：
GET /heima/_search
{
  "query": {
    "fuzzy": {
        "title": {
            "value":"appla",
            "fuzziness":1
        }
    }
  }
}

15、elastic的聚合

Elasticsearch中提供的划分桶的方式有很多：

1、Date Histogram Aggregation：根据日期阶梯分组，例如给定阶梯为周，会自动每周分为一组
2、Histogram Aggregation：根据数值阶梯分组，与日期类似
3、Terms Aggregation：根据词条内容分组，词条内容完全匹配的为一组
4、Range Aggregation：数值和日期的范围分组，指定开始和结束，然后按段分组
综上所述，我们发现bucket aggregations 只负责对数据进行分组，并不进行计算，因此往往bucket中往往会嵌套另一种聚合：metrics aggregations即度量

比较常用的一些度量聚合方式：

1、Avg Aggregation：求平均值
2、Max Aggregation：求最大值
3、Min Aggregation：求最小值
4、Percentiles Aggregation：求百分比
5、Stats Aggregation：同时返回avg、max、min、sum、count等
6、Sum Aggregation：求和
7、Top hits Aggregation：求前几
8、Value Count Aggregation：求总数

16、指定间隔分组

interval:间隔，
min_doc_count：过滤为0的分组

{
  "size":0,
  "aggs":{
    "price":{
      "histogram": {
        "field": "price",
        "interval": 5000,
        "min_doc_count": 1
      }
    }
  }
}

17、elasticsearch 深分页

产生原因：from、size 两字段过大，es默认是10000

解决方式：

(1)深度分页之scroll,滚动查询、每次请求两条。可以定制 scroll = 5m意味着该窗口过期时间为5分钟。

 GET /student/_search?scroll=5m
 {
   "query": {
     "match_all": {}
   },
   "size": 2
 }

后边查询的时候需要带上 _scroll_id 参数

 GET /_search/scroll
 {
   "scroll":"5m",
   "scroll_id":"DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAC0YFmllU"
 }

(2)search_after 使用索引全局唯一标识字段、官方推荐使用 _uid 作为全局唯一值，但是只要能表示其唯一性就可以。

  GET /student/_search
  {
    "query":{
      "match_all": {}
    },
    "size":2,
    "sort":[
     {
        "uid": "desc"
    }  
   ]
 }

下一次分页，需要将上述分页结果集的最后一条数据的值带上。

  GET /student/student/_search
  {
    "query":{
      "match_all": {}
    },
    "size":2,
    "search_after":[1005],
    "sort":[
      {
       "uid": "desc"
     }  
   ]
 }

18、解决keyword长度报错问题**

test_demo/_mapping

{
  "properties": {
    "title": {
      "type": "keyword",
      "ignore_above": 51
    }
  }
}

深分页对比

分页方式	性能	优点	缺点	场景
from+size	低	灵活性好，实现简单	深度分页问题	数据量比较小，能容忍深度分页问题
scroll	中	解决了深度分页问题	无法反应数据的实时性（快照版本），维护成本高，需要维护一个	海量数据的导出需要查询海量结果集的数据
search_after	高	性能最好、不存在深度分页问题、能够反映数据的实时变更	实现复杂，需要有一个全局唯一的字段、连续分页的实现比较复杂，因为每一次查询都需要上次查询的结果	海量数据的分页

19：时间段包含查询（智能报告热榜数据查询）

{
  "query": {
    "bool": {
      "should": [
        {
          "bool": {
            "should": [
              {
                "range": {
                  "createTime": {
                    "gte": "2024-03-19T11:42:00.000+0800",
                    "lte": "2024-03-19T11:55:00.000+0800"
                  }
                }
              },
              {
                "range": {
                  "updateTime": {
                    "gte": "2024-03-19T11:42:00.000+0800",
                    "lte": "2024-03-19T11:55:00.000+0800"
                  }
                }
              }
            ],
            "minimum_should_match": 1
          }
        },
        {
          "bool": {
            "must": [
              {
                "range": {
                  "createTime": {
                    "lt": "2024-03-19T11:42:00.000+0800"
                  }
                }
              },
              {
                "range": {
                  "updateTime": {
                    "gt": "2024-03-19T11:55:00.000+0800"
                  }
                }
              }
            ]
          }
        }
      ],
      "minimum_should_match": 1
    }
  }
}

二、设置非keyword类型字段聚合（只会对新数据生效）

POST /index_name/_mapping
{
  "properties": {
      "testText": { 
        "type": "text",
        "fielddata": true,
         "fields": {
                "subField": {
                  "type": "keyword",
                  "ignore_above": 256
                }
            }
        }
    }
}

三、ElasticSearch Java API之高级查询（分页查询，高亮查询，正则表达式查询，聚合查询等）

参考：
ElasticSearch Java API之高级查询（分页查询，高亮查询，正则表达式查询，聚合查询等）_java es高级查询分组分页聚合查询-CSDN博客
 Java 操作RestHighLevelClient查询详解-CSDN博客

四、ES优化

1、写入速度优化

1、加大 Translog Flush ，目的是降低 Iops 、 Writeblock 。
2、增加 Index Refresh 间隔，目的是减少 Segment Merge 的次数。
3、调整 Bulk 线程池和队列。
4、优化节点间的任务分布。
5、优化 Lucene 层的索引建立，目的是降低 CPU 及 IO。
6、批量写入
7、服务器磁盘读写速度提高
8、调整refresh_interval（刷新时间），默认为1s，若调大后，会消耗更大的heap内存
9、副本越多，写效率越低（index.number_of_replicas: 0）

2、大数据量的优化

（1）动态索引层面

基于模板+时间+rollover api 滚动创建索引，减少单个索引的数据量过大

（2）存储层面

冷热数据分离存储，热数据（比如最近 3 天或者一周的数据），其余为冷数据。
对于冷数据不会再写入新数据，可以考虑定期 force_merge 加 shrink 压缩操作，节省存储空间和检索效率。

（3）部署层面

结合 ES 自身的支持动态扩展的特点，动态新增机器的方式可以缓解集群压力

时间聚合

DateHistogramAggregationBuilder group = AggregationBuilders.dateHistogram("releaseTime")//自定义名称
                    .dateHistogramInterval(DateHistogramInterval.DAY)//设置间隔
                    .minDocCount(0)//返回空桶
                    .timeZone(ZoneId.of("+08:00"))
                    .field("releaseTime")//指定时间字段
                    .format("dd日");//设定返回格式

小橘快跑

关注

17
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
elasticsearch 查询聚合操作

2、模糊查询关键词：wildcard匹配出状态码status 以 5 开头的日志3、指定某个值同时匹配多个字段关键词：multi_matchquery 要查询的值fields 要匹配的字段【数组】匹配出字段code和status 为400的所有日志4、一个字段查询多个值关键词：terms{ “字段”：[ 要匹配的多个值 ] }5、多种组合查询关键词：bool must should range size sort6、es默认时间格式查询/ java时间查
复制链接

扫一扫