一、背景:
实现效果数据实时报表
二、历史解决方案:
1) 前端发生数据事件时,调用封装好的JS方法,抛出kafka消息,服务端使用Spark 微批消费Kafka数据,使用Redis的incr方法记录每个不同的数据key的发生次数。
2)开启java job程序定时读取redis的打点数据,根据不同维度写入Mysql,实现实时数据报表。
三、不足之处:
1)Spark不是真正的流处理,数据非真正实时,使用job定时读取Redis数据也相当古板,Mysql数据量大的时候,前端查询会慢的像蜗牛。
四、优化思路:
我们决定使用Flink+ElasticSearch来解决这个问题。
首先,Flink支持真正的流处理,官方提供了一系列窗口聚合API,可以根据使用场景选择使用,使用ES来存储数据,不仅在存储量级上比Mysql有优势,最重要的是聚合查询速度是可以显著提高的。
Flink窗口数据分类为:滚动窗口、滑动窗口、会话窗口(详情请看下一篇:Flink窗口解析),我们这个场景选择滚动窗口,以5分钟为一个周期进行数据汇总。
窗口时间可以选择
系统时间窗口:TumblingProcessingTimeWindows
事件时间窗口:TumblingEventTimeWindows
为了数据统计的时间准确性,我们保证每个Kafka数据源带有自己的时间戳,Flink的滚动窗口选择事件自己的时间戳作为自己的处理时间,来定义自己下一个watermark时间。
海量流数据经过Flink聚合后,分批写入ES,不仅保证数据准确,也能减轻对ES写入的压力,这里特别提到的是,我们的数据是以1H为单位存储,基于Flink给ES的写入频率不大,可以选择累加操作,可以减少至少30倍的数据存储。
DMP数据服务中心,只需要根据不同维度写ES聚合代码,就可以拿到对应的实时报表数据,查询效率超高。
未完待续。。。。。。。