flink taskmanager slot 并行度 数量关系

flink 每个TM的slot个数*TM个数=最大并行度

一般我们设置TM内存:0.5g*slot个数/TM,core:0.5*slot个数/TM。

除了考虑实际情况,一个TM内存和core不能设置过大,那么在一个可选择的区间里,要怎么选择呢?

假设并行度为1000,

方式一:设置100个TM,每个TM设置10个slot,每个设置5g内存,5core;

方式二:设置200个TM,每个TM设置5个slot,每个设置2.5g内存,2.5core(忽略小数的问题)。

这两种方式哪个会好一些?这个问题有没有困扰你很久?

答案:没有绝对的好坏,更分散会增加TM 之间数据交换开销,更集中的话,如果对状态访问较多,会导致对磁盘压力太大。

首先更分散会增加TM 之间数据交换开销容易理解吧。

其次,为何更集中的话,如果对状态访问较多,会导致对磁盘压力太大?

如果只有50台机器的话,那么每台机器上分布方式一的2个TM,或方式二的4个TM,感觉对磁盘来说压力应该还是一致的。但实际不会这么理想。在集群上已经有很多任务的情况下,假设100个TM大概会分布在10台机器上,200个TM会分布在10-20台机器上?这时候对单机的磁盘压力差别就出来了,如果磁盘资源确实紧俏,那么就考虑增加TM的数量。

这下知道怎么去平衡taskmanager个数及slot个数/TM的关系了吧。觉得有用点个赞哈。

Flink SQL中,可以通过设置任务的并行度来实现任务的并行执行。Flink SQL中的并行度可以分为两种: 1. Task并行度:指的是Flink任务中运算子的并行度,也就是同一个算子能够同时处理多个输入的能力。 2. Slot并行度:指的是在Flink集群中,每个TaskManager可以运行的Task数量Slot并行度取决于每个TaskManager节点的资源情况。 Flink SQL中的并行度可以通过以下方式进行设置: 1. 在创建TableEnvironment的时候设置默认的并行度: ```java StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(3); StreamTableEnvironment tEnv = StreamTableEnvironment.create(env); ``` 2. 在创建Table的时候设置并行度: ```sql CREATE TABLE myTable ( a INT, b STRING ) WITH ( 'connector.type' = 'kafka', 'connector.version' = 'universal', 'connector.topic' = 'myTopic', 'connector.startup-mode' = 'earliest-offset', 'connector.properties.zookeeper.connect' = 'localhost:2181', 'connector.properties.bootstrap.servers' = 'localhost:9092', 'format.type' = 'json', 'update-mode' = 'append', 'parallelism' = '4' ); ``` 在上面的代码中,'parallelism' = '4' 表示设置了该Table的并行度为4。 设置并行度的原则是根据据量和资源情况来确定。如果据量较大,可以适当增加并行度以提高处理效率;如果资源有限,则需要适当降低并行度以避免资源的浪费。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值