flink 每个TM的slot个数*TM个数=最大并行度
一般我们设置TM内存:0.5g*slot个数/TM,core:0.5*slot个数/TM。
除了考虑实际情况,一个TM内存和core不能设置过大,那么在一个可选择的区间里,要怎么选择呢?
假设并行度为1000,
方式一:设置100个TM,每个TM设置10个slot,每个设置5g内存,5core;
方式二:设置200个TM,每个TM设置5个slot,每个设置2.5g内存,2.5core(忽略小数的问题)。
这两种方式哪个会好一些?这个问题有没有困扰你很久?
答案:没有绝对的好坏,更分散会增加TM 之间数据交换开销,更集中的话,如果对状态访问较多,会导致对磁盘压力太大。
首先更分散会增加TM 之间数据交换开销容易理解吧。
其次,为何更集中的话,如果对状态访问较多,会导致对磁盘压力太大?
如果只有50台机器的话,那么每台机器上分布方式一的2个TM,或方式二的4个TM,感觉对磁盘来说压力应该还是一致的。但实际不会这么理想。在集群上已经有很多任务的情况下,假设100个TM大概会分布在10台机器上,200个TM会分布在10-20台机器上?这时候对单机的磁盘压力差别就出来了,如果磁盘资源确实紧俏,那么就考虑增加TM的数量。
这下知道怎么去平衡taskmanager个数及slot个数/TM的关系了吧。觉得有用点个赞哈。