Flink窗口统计海量数据至ElasticSearch

最新推荐文章于 2024-01-28 14:33:00 发布

噗呲噗呲咔咔

最新推荐文章于 2024-01-28 14:33:00 发布

阅读量749

点赞数 1

文章标签： flink hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42285430/article/details/106396616

版权

一、背景：

实现效果数据实时报表

二、历史解决方案：

1）前端发生数据事件时，调用封装好的JS方法，抛出kafka消息，服务端使用Spark 微批消费Kafka数据，使用Redis的incr方法记录每个不同的数据key的发生次数。

2）开启java job程序定时读取redis的打点数据，根据不同维度写入Mysql,实现实时数据报表。

三、不足之处：

1）Spark不是真正的流处理，数据非真正实时，使用job定时读取Redis数据也相当古板，Mysql数据量大的时候，前端查询会慢的像蜗牛。

四、优化思路：

我们决定使用Flink+ElasticSearch来解决这个问题。

首先，Flink支持真正的流处理，官方提供了一系列窗口聚合API，可以根据使用场景选择使用，使用ES来存储数据，不仅在存储量级上比Mysql有优势，最重要的是聚合查询速度是可以显著提高的。

Flink窗口数据分类为：滚动窗口、滑动窗口、会话窗口（详情请看下一篇:Flink窗口解析），我们这个场景选择滚动窗口，以5分钟为一个周期进行数据汇总。

窗口时间可以选择

系统时间窗口：TumblingProcessingTimeWindows

事件时间窗口：TumblingEventTimeWindows

为了数据统计的时间准确性，我们保证每个Kafka数据源带有自己的时间戳，Flink的滚动窗口选择事件自己的时间戳作为自己的处理时间，来定义自己下一个watermark时间。

海量流数据经过Flink聚合后，分批写入ES，不仅保证数据准确，也能减轻对ES写入的压力，这里特别提到的是，我们的数据是以1H为单位存储，基于Flink给ES的写入频率不大，可以选择累加操作，可以减少至少30倍的数据存储。

DMP数据服务中心，只需要根据不同维度写ES聚合代码，就可以拿到对应的实时报表数据，查询效率超高。

未完待续。。。。。。。

噗呲噗呲咔咔

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Flink窗口统计海量数据至ElasticSearch

一、背景：实现效果数据实时报表二、历史解决方案： 1）前端发生数据事件时，调用封装好的JS方法，抛出kafka消息，服务端使用Spark 微批消费Kafka数据，使用Redis的incr方法记录每个不同的数据key的发生次数。 2）开启java job程序定时读取redis的打点数据，根据不同维度写入Mysql,实现实时数据报表。三、不足之处： 1）Spark不是真正的流处理，数据非真正实时，使用job定时读取Redis数据也相当古板，...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。