目录
大数据组件设计的时候都会运用分而治之的设计理念,把海量数据分散到多台服务器,每台服务器分别处理数据,多台服务器进行数据的聚合计算等,而分而治之理念在Flink里面的一个落地就是并行度。
什么是Flink并行度?
一个 Flink 程序由多个任务 task 组成(算子、source和sink)。一个 task 包括多个并行执行的实例,且每一个实例都处理 task 输入数据的一个子集。一个 task 的并行实例数被称为该 task 的 并行度 (parallelism),可以说在一定程度上,增大并行度可以增加大数据程序执行速率。
Flink并行度如何设置?
1、系统层次
可以通过设置 ./conf/flink-conf.yaml 文件中的 parallelism.default 参数,在系统层次来指定所有执行环境的默认并行度,适用场景,规范提交并行度,防止提交代码不设置并行度而导致一些问题。
本文介绍了Flink并行度的概念,包括如何在系统、客户端、执行环境和算子层次设置,并提供了并行度设置的最佳实践,如与Kafka分区数对应、2的整数次幂等,以优化大数据处理效率。
订阅专栏 解锁全文
6704

被折叠的 条评论
为什么被折叠?



