elasticsearch中根据数字类型字段按区间分组聚合计算

最新推荐文章于 2024-03-29 10:20:37 发布

不爱运动的跑者

最新推荐文章于 2024-03-29 10:20:37 发布

阅读量873

点赞数

文章标签： elasticsearch 大数据 big data

本文链接：https://blog.csdn.net/sinat_34206747/article/details/125381072

版权

本文分享了一个利用Elasticsearch处理大数据分组统计的案例。在30亿条数据中，通过Elasticsearch的聚合查询功能，对长度字段按区间进行分组，并统计各区间的数据条数。进一步，通过嵌套的聚合查询计算了各区间数据的总长度。查询示例展示了如何限定时间范围并获取指定日期内的统计结果。

摘要由CSDN通过智能技术生成

当需要从几十亿条数据分组统计时，关系型数据库因为单点特性显然是有性能瓶颈得。然而针对ES这种天然具备分布式计算特性得存储软件，则变得比较容易。今天分享一个案例：

在ES中我们每天要存储30亿条数据，最近遇到一个需求便是通过数据中的一个数字字段按照区间范围分组统计范围内的数据条数，想起了ES本身支持聚合分组查询，于是写下了如下查询请求：

GET {index}/_search
{
	"aggs": {
		"length_ranges": {
			"range": {
				"field": "length",
				"ranges": [{
						"to": 2000
					},
					{
						"from": 2000,
						"to": 5000
					},
					{
						"from": 5000,
						"to": 8000
					},

					{
						"from": 8000,
						"to": 10000
					},
					{
						"from": 10000
					}
				]
			}
		}
	},
	"query": {
		"bool": {
			"filtter": [{
				"range": {
					"@timestamp": {
						"gte": "2022-01-01T00:00:00.000Z",
						"lte": "2022-01-02T00:00:00.000Z",
						"format": "strict_date_optional_time"
					}
				}
			}]
		}
	}
}

这样以来，即可查询在2022年1月1日当天内，按照长度分0-2000，2000-5000，5000-8000，8000-10000，10000以上等5个区间所统计各自数据条数。

查询出各区间范围内数据条数后，又想查询各区间数据总长度，于是对查询语句进行了修改如下：

GET {index}/_search
{
	"aggs": {
		"length_ranges": {
			"range": {
				"field": "length",
				"ranges": [{
						"to": 2000
					},
					{
						"from": 2000,
						"to": 5000
					},
					{
						"from": 5000,
						"to": 8000
					},

					{
						"from": 8000,
						"to": 10000
					},
					{
						"from": 10000
					}
				]
			},
			"aggs": {
				"length_total": {
					"sum": {
						"field": "length"
					}
				}
			}
		}
	},
	"query": {
		"bool": {
			"filtter": [{
				"range": {
					"@timestamp": {
						"gte": "2022-01-01T00:00:00.000Z",
						"lte": "2022-01-02T00:00:00.000Z",
						"format": "strict_date_optional_time"
					}
				}
			}]
		}
	}
}

不爱运动的跑者

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
elasticsearch中根据数字类型字段按区间分组聚合计算

当需要从几十亿条数据分组统计时，关系型数据库因为单点特性显然是有性能瓶颈得。然而针对ES这种天然具备分布式计算特性得存储软件，则变得比较容易。今天分享一个案例：在ES中我们每天要存储30亿条数据，最近遇到一个需求便是通过数据中的一个数字字段按照区间范围分组统计范围内的数据条数，想起了ES本身支持聚合分组查询，于是写下了如下查询请求：这样以来，即可查询在2022年1月1日当天内，按照长度分0-2000，2000-5000，5000-8000，8000-10000，10000以上等5个区间所统计各自数据条
复制链接

扫一扫