关注公众号:大数据技术派,回复
资料
,领取1024G
资料。
TopN的常见应用场景,最热商品购买量,最高人气作者的阅读量等等。
1. 用到的知识点
- Flink创建kafka数据源;
- 基于 EventTime 处理,如何指定 Watermark;
- Flink中的Window,滚动(tumbling)窗口与滑动(sliding)窗口;
- State状态的使用;
- ProcessFunction 实现 TopN 功能;
2. 案例介绍
通过用户访问日志,计算最近一段时间平台最活跃的几位用户topN。
- 创建kafka生产者,发送测试数据到kafka;
- 消费kafka数据,使用滑动(sliding)窗口,每隔一段时间更新一次排名;
3. 数据源
这里使用kafka api发送测试数据到kafka,代码如下: