elasticsearch 按月聚合_一次有趣的Elasticsearch+矩阵变换聚合实践

前言

Elasticsearch 聚合功能非常丰富,性能也相当不错,特别适合实时聚合分析场景,但在二次聚合上也有明显短板。本项目是一个基于日期维度做预处理的技术方案,以下是结合 Elasticsearch 优缺点扬长避短的一次尝试性实战,非常有意思,希望可以带来一些参考,同时欢迎各种讨论。

背景需求

公司所属行业是物流速运,面向企业服务(简称ToB模式),提供多种物流运输方案产品,客户分布遍布全国,客户数量在百万级以上,日均产生物流运输需求在几十万票(单)以上,对于客户订单的聚合统计分析查询需求强烈,且需要一定的实时性。

同时需要满足以下用户需求:

1、用户需要在地图上展示客户的聚合分布;

2、聚合分布维度按照全国、省、市、区县、乡镇划分。

6352a32c396edb03b72390bf1e182e4c.png

地图展示样例:非内部效果图

筛选条件

用户端基于多个筛选条件过滤聚合,选择任意条件组合,如下:

  • 行政区域:
    按照国家4级行政区域:省、市、区、镇等数量在5000+以上

  • 企业组织架构:

    企业内部多层级组织架构:大区、小区等数量超过3000+以上

  • 客户企业类型:

    客户企业类型划分:2B、2C等数量在10+以上

  • 客户行业类型:

    客户企业行业所属类型划分,如家具、服装、电子、3C等数量在100+以上

  • 企业业务类型:

    企业物流业务类型,如寄件、派件、未寄件派件等

  • 日期范围:

    日期范围筛选限制在1个月,即日期的滑动窗口在1~31天(这个限定范围是与业务部门多次讨论得来,否则后面实现的代价会更大,原有是多个月的窗口期)

df71a6119a28330961d782faf3f9dc92.png

筛选条件说明

业务模型

业务数据模型说明:

  • 单个客户即使单天下单多次,单天聚合统计也只能算1个客户;

  • 单个客户连续多天都有下单,多天聚合统计也只能算1个客户;

  • 业务类型有寄件/派件,按照其中一种处理,逻辑比较计算。

06f481e7742cdcab4f327e10d5b5c8cb.png

样例数据模型说明

聚合数据模型

聚合数据模型说明:基于前面的业务模型数据聚合,按照区域+其它条件聚合,获取聚合后分组客户数量。

3b6e8145d19a9d4c5e6487557530ec24.png

聚合后的业务数据模型

技术抽象

业务需求是一个很典型的聚合统计,多数大数据产品或者传统关系数据库都支持,相反 Elasticsearch 聚合支持的不怎么好,不能满足需求。

业务需求的技术本质实际上是一个去重然后分组聚合的过程:

1、去重合并:按照客户维度去重,合并符合过滤条件的客户数据,相同多条客户数据合并为单条数据;

2、聚合分组:按照聚合维度分组,并计算出分组后的客户数量。

d55b4423f6fc608061d8cb8fa008ce15.png

技术抽象过程

技术尝试

在实现业务需求过程中尝试过多种技术产品,遇到不少问题:

1、Mysql:当数据达到一定数量级,运行超时,甚至直接运行不起来;

2、Prestodb:定位是秒级分析型产品,单任务启动就需要消耗好几秒的时间,且受资源限制,并发度与响应度不能满足要求,优点可与 Hive 很好结合。3、MPP:Greenplum/Vertica/Infobright,与 Prestodb 其实本质差不多,都不能满足性能要求。4、穷举法:探讨过将所有的组合条件全部计算存储起来,业务系统只要去定位去查询,比如 Kylin 产品,查询复杂度确实低了,但计算量与存储量实在是太大,根本不现实;

5、Elasticsearch:虽然提供了聚合能力,但不支持在一次聚合过程中完成去重与分组统计,也就是不支持复杂的二次聚合,这是 ES 局限,也是 ES 定位。

5abfbdd3708cd8852c07c2043e781851.png

举法计算量=愚公

矩阵转换

技术尝试过多次不同的技术产品之后得出结论,单一的数据产品已有能力是无法满足要求的,正可谓鱼与熊掌不可兼得。所以必须改变思维,设计了一种矩阵变换的算法机制,结合 Hive+ES 实现,下面介绍这种技术实现方式。

可转换性分析:分析原有业务需求,发现只有日期这个条件组合特别多,动态变化范围很大,如果按照单月最长31天计算组合数就有31的阶乘;其余的条件变化小,也没有动态的组合条件,所以重点解决日期组合这个条件。

75a9ea060122e2b196e46b53e57256b3.png

下单日期可变数大

数据行转列:原有业务数据是按照行存储,聚合日期最小粒度是天, 单个客户下单信息除了下单日期、业务类型,其余的是相同的;将单个客户单月 31 天的下单数据 31 条转换成 1 条数据 31 列存储,31 列分表代表从下单日期往后叠加的日期,列存储的值代表当天是否有下单以及业务类型。

1、本次行转列基于 Hive 实现,数仓 ODS 数据都存储在 Hive 里,方便做下一步数据清洗转换计算;

2、首先在 Hive 上 按照【客户+日期】维度将客户下单数据去重,并按照业务类型简单的逻辑计算,合并单日多次下单的业务类型;

3、客户数据按照日期排序,从历史日期到当下昨天日期,计算任务默认 T+1;
4、其次在 Hive 中将去重后的客户数据,按照行转列模型将 1~31 天行数据转换到 31 列的数据,并填充原始行的业务类型值。

0782fc8b12dc03a08fa3423685dc6983.png

客户端行转列示意图

列合并逻辑计算:业务需求是按照日期范围聚合,在一个日期范围内,客户订单业务类型要做一些逻辑计算(业务类型:0/1/2),按照最大,所以需要计算单个客户单条数据之后 31 天的业务类型。

1、本次列合并逻辑计算基于 Hive 实现;
2、合并完整的数据之后按照月的维度分开存储,当计算任务下次 T+1 运行时,只要更新最近 31 天的数据,最多跨度 2 个月。
3、数据同步到 Elasticsearch 中,一个月一个索引,也只要更新最近的 2 个索引。Elasticsearch 更新索引也很方便,采用别名切换方式,可在毫秒间完成,ES 这个优点有效的避免了业务系统查询停顿空白问题。

518a6484c80aa7126000ed2a3817806a.png

客户日期列逻辑合并

业务查询

选择 Elasticsearch 做为查询引擎是非常正确的,得益于 Elasticsearch 高效的查询机制以及高效的聚合能力。

1、依据起始日期定位到该日期的月度索引,并锁定对于下单日期所有数据,Elasticsearch 支持动态索引搜索,支持高效的过滤 filter 扫描;
2、依据结束日期与起始日期差值,定位到指定的数据列;
3、最后只要一次聚合即可返回数据,Elasticsearch 支持高效的聚合特性 agg。

df03ce6d771ca88ac9bc5577221e2510.png

说明案例:查询2019-03-01~2019-03-05 客户聚合数据

结语

本次需求的技术实现比较曲折,在探讨大数据分析方面做了一次很重要的探索实践,没有一种通用的数据产品即可满足性能与功能,所以在面对实际业务问题要去探讨多种技术的混合实践。本次项目中的 Hive+ES 结合就是一次很有趣的混合。

学会培养一些算法思维,用微观算法的思维分析问题解决问题。本次项目中采用矩阵转换,有效避免了诸多技术产品的不足,满足了性能与功能。

项目案例是在 2019 年 3 月完成,时任职于跨越速运大数据中心。项目方案依赖大数据平台实现大量的预计算,矩阵变换是由服务端工程师想出来的,项目完成需要前后端通力配合才能完成。

正文完

c4bd8080493439eac8b49591db4c0868.png

作者:李猛

https://www.jianshu.com/u/19522b124f97

本文编辑:筷子

活动预告

b93bc372c4d3df9f0e8246a03666df97.png

监控 Web 服务和应用的响应性的确是个挑战,随着时间的推移和规模的扩大,能够跟踪这种响应就更加有趣了。设置 SLAs, SLOs, and KPIs 不仅需要历史视图,还需要进行分析和预测的能力。

在本次研讨会中,我们将讨论 Heartbeat 和 Elastic Uptime 如何帮助运营团队实现可观察性,并提供大量的管理 Web 服务所需的洞察力。我们将演示如何为 SOAP 和 RESTful Web服务构建合成事务,以便您可以立即开始使用。

最后,我们将介绍 Elastic 机器学习特性如何在异常检测和预测方面让您保持警觉。

会议时间

3月13日,3:00PM-4:00PM

扫码报名

247d7f8b5170f6e6a3b2c89ddb848683.png

嗨,互动起来吧!

喜欢这篇文章么?

欢迎留下你想说的,留言 100% 精选哦!

Elastic 社区公众号长期征稿,如果您有 Elastic  技术的相关文章,也欢迎投稿至本公众号,一起进步! 投稿请添加微信:medcl123

招聘信息

Job board

社区招聘栏目是一个新的尝试,帮助社区的小伙伴找到心仪的职位,也帮助企业找到所需的人才,为伯乐和千里马牵线搭桥。有招聘需求的企业和正在求职的社区小伙伴,可以联系微信 medcl123 提交招聘需求和发布个人简历信息。

Elastic中文社区公众号 (elastic-cn)

为您汇集 Elastic 社区的最新动态、精选干货文章、精华讨论、文档资料、翻译与版本发布等。

3c4b4123c03676322e9770120d217fc1.png

喜欢本篇内容就请给我们点个[在看]吧

e650304e142aa9658cedfdf79a24701a.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值