使用scala编写flink消费kafka实时计算pv,uv

38 篇文章 13 订阅 ¥29.90 ¥99.00
17 篇文章 14 订阅 ¥19.90 ¥99.00
本文介绍了如何使用Scala编写Flink消费Kafka进行实时PV和UV统计,详细讨论了业务代码、存在的问题及改进方案。通过使用窗口和水印处理迟到数据,并展示了将List和Set替换为更高效的计数器以节省内存的优化方法。
摘要由CSDN通过智能技术生成

分享一个大神的人工智能教程。零基础!通俗易懂!风趣幽默!还带黄段子!希望你也加入到人工智能的队伍中来!
点击浏览教程


实时统计pv、uv是再常见不过的大数据统计需求了,前面出过一篇SparkStreaming实时统计pv,uv的案例,这里用flink实时计算pv,uv。

我们需要统计不同数据类型每天的pv,uv情况,并且有如下要求.

  • 每秒钟要输出最新的统计结果
  • 程序永远跑着不会停,所以要定期清理内存里的过时数据
  • 收到的消息里的时间字段并不是按照顺序严格递增的,所以要有一定的容错机制
  • 访问uv并不一定每秒钟都会变化,重复输出对IO是巨大的浪费,所以要在uv变更时在一秒内输出结果,未变更时不输出

flink数据流上的类型和操作

DataStream是flink流处理最核心的数据结构,其它的各种流都可以直接或者间接通过DataStream来完成相互转换,一些常用的流直接的转换关系如图:

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据技术派

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值