Flink生产最jia实践

留歌留歌

已于 2022-03-09 11:38:01 修改

阅读量875

点赞数

分类专栏：大数据平台文章标签： flink java 大数据

于 2022-02-22 15:21:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuge36/article/details/123069156

版权

数据流上有状态的计算
对接处理Kafka的前端打点数据，写入到Doris
1.dwd 明细用户每天听课的打点数据（这里会对1分钟内的多个点数据进行去重，保证每分钟只会有一条记录）
2.dws 汇总用户每天每个课程下的累计听课时长
3.dwt 汇总用户在每一个课程下的总时长

1.获取上下文执行环境env
配置执行环境参数：
1.设置使用数据产生的时间：EventTime
2.设置全局并行度为4
3.根据 env 得到 table_env
2.得到Table 执行环境 table_env
配置t_env环境参数
为t_env注册自定义函数

3.使用table的方式注册 Kafka Source,同时注册结果数据的Sink 表

4.编写从Source到Sink的逻辑处理SQL语句

5.调用t_env.execute_sql(SQL逻辑语句)

时间语义：处理时间事件时间到达FLink程序的时间
时间：EventTime(性能时效性稍差，可以解决乱序) ProcessTime 到达FLink程序的时间
Window:无界流划分为有界流
1.根据是否keyby :
不带key的：调用windowAll划分窗口
带key的：调用window划分窗口

2.划分之后可以作用上窗口函数:
增量类型：来一条处理一条 reduce agg
全量类型：比如求某个窗口的最大值 process ProcessWindowFunction<IN, OUT, KEY, W extends Window>[可以得到窗口的开始时间结束时间等]

WindowFunction :对于整个窗口作用上一个函数，对其数据进行处理:
增量：一个窗口内

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flink生产最jia实践

内存使用最佳实践：关键在于资源情况能不能抗住高峰时期每秒的数据量JM2~4G 足够单个 TM2~8G 足够numberOfTaskSlots 与容器核数相关 [1slot ：1core 或 1slot ：2core]CPU利用最佳实践：使用 DominantResourceCalculator 策略并指定容器vcore 数bin/flink run -t yarn-per-job -d -p 5 -Drest.flamegraph.enabled=true -Dya
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。