Flink窗口统计海量数据至ElasticSearch

一、背景:

      实现效果数据实时报表

二、历史解决方案:

      1) 前端发生数据事件时,调用封装好的JS方法,抛出kafka消息,服务端使用Spark 微批消费Kafka数据,使用Redis的incr方法记录每个不同的数据key的发生次数。

       2)开启java job程序定时读取redis的打点数据,根据不同维度写入Mysql,实现实时数据报表。

三、不足之处:

       1)Spark不是真正的流处理,数据非真正实时,使用job定时读取Redis数据也相当古板,Mysql数据量大的时候,前端查询会慢的像蜗牛。

四、优化思路:

     我们决定使用Flink+ElasticSearch来解决这个问题。

     首先,Flink支持真正的流处理,官方提供了一系列窗口聚合API,可以根据使用场景选择使用,使用ES来存储数据,不仅在存储量级上比Mysql有优势,最重要的是聚合查询速度是可以显著提高的。

     Flink窗口数据分类为:滚动窗口、滑动窗口、会话窗口(详情请看下一篇:Flink窗口解析),我们这个场景选择滚动窗口,以5分钟为一个周期进行数据汇总。

窗口时间可以选择

  系统时间窗口:TumblingProcessingTimeWindows

  事件时间窗口:TumblingEventTimeWindows

    为了数据统计的时间准确性,我们保证每个Kafka数据源带有自己的时间戳,Flink的滚动窗口选择事件自己的时间戳作为自己的处理时间,来定义自己下一个watermark时间。

  海量流数据经过Flink聚合后,分批写入ES,不仅保证数据准确,也能减轻对ES写入的压力,这里特别提到的是,我们的数据是以1H为单位存储,基于Flink给ES的写入频率不大,可以选择累加操作,可以减少至少30倍的数据存储。

DMP数据服务中心,只需要根据不同维度写ES聚合代码,就可以拿到对应的实时报表数据,查询效率超高。

未完待续。。。。。。。

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值