携程2024大数据开发一面

最新推荐文章于 2024-09-26 17:10:31 发布

2401_84182392

最新推荐文章于 2024-09-26 17:10:31 发布

阅读量237

点赞数 16

分类专栏：程序员文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84182392/article/details/138364743

版权

本文介绍了Flink中的常用算子如Map、Filter、KeyBy、Reduce和Window，讨论了数据倾斜和热点问题的解决方法，以及Flink的任务调优和重启策略。还涉及SQL示例和水印的概念。最后倡导系统化学习和社区交流的重要性。

摘要由CSDN通过智能技术生成

说说 Flink 的常用算子？

Flink 最常用的常用算子包括：Map：DataStream → DataStream，输入一个参数产生一个参数，map 的功能是对输入的参数进行转换操作。Filter：过滤掉指定条件的数据。KeyBy：按照指定的 key 进行分组。Reduce：用来进行结果汇总合并。Window：窗口函数，根据某些特性将每个 key 的数据进行分组（例如：在 5s 内到达的数据）

flink某个任务卡住了怎么处理
Flink 中在使用聚合函数 GroupBy、Distinct、KeyBy 等函数时出现数据热点该如何解决？

数据倾斜和数据热点是所有大数据框架绕不过去的问题。处理这类问题主要从 3 个方面入手：

Key 的设计上

把热 key 进行拆分，先聚合热key，再二次聚合

参数设置

Flink 1.9.0 SQL(Blink Planner) 性能优化中一项重要的改进就是升级了微批模型，即

MiniBatch。原理是缓存一定的数据后再触发处理，以减少对 State 的访问，从而提升吞吐和减少数据的输出量。

hive调优
Flink 任务延迟高，想解决这个问题，你会如何入手？

在 Flink 的后台任务管理中，我们可以看到 Flink 的哪个算子和 task 出现了反压（网络流控）。最主要的手段是资源调优和算子调优。资源调优即是对作业

最低0.47元/天解锁文章

关注

16
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。