Flink 并行度详解

最新推荐文章于 2023-03-27 08:30:00 发布

magina_lil

最新推荐文章于 2023-03-27 08:30:00 发布

阅读量2.5k

点赞数 1

分类专栏： hadoop 文章标签： flink

hadoop 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

				版权声明：本文为博主原创文章，未经博主允许不得转载。					https://blog.csdn.net/Jiny_li/article/details/86482112				</div>
							            <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-f57960eb32.css">
					<div class="htmledit_views" id="content_views">
            <h3><a name="t0"></a><span>TaskManager与Slot介绍</span></h3>

Flink的每个TaskManager为集群提供solt。 solt的数量通常与每个TaskManager节点的可用CPU内核数成比例。一般情况下你的slot数是你每个节点的cpu的核数。

并行度(Parallel)

一个Flink程序由多个任务组成(source、transformation和 sink)。一个任务由多个并行的实例(线程)来执行，一个任务的并行实例(线程)数目就被称为该任务的并行度。

任务的并行度设置可以从多个层次指定

•Operator Level（算子层次）

•Execution Environment Level（执行环境层次）

•Client Level（客户端层次）

•System Level（系统层次）

并行度设置之Operator Level

算子、数据源和sink的并行度可以通过调用 setParallelism()方法来指定


 
 
   
   
    
    
   
   
   
   
    
    
     
     final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     DataStream<
     
     String> 
     
     text = [...]
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     DataStream<Tuple2<
     
     String, 
     
     Integer>> wordCounts = 
     
     text
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         .flatMap(
     
     new LineSplitter())
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         .keyBy(
     
     0)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         .timeWindow(Time.seconds(
     
     5))
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         .sum(
     
     1).setParallelism(
     
     5);
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     wordCounts.print();
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     env.execute(
     
     "Word Count Example");

并行度设置之Execution Environment Level

执行环境(任务)的默认并行度可以通过调用setParallelism()方法指定。为了以并行度3来执行所有的算子、数据源和data sink，可以通过如下的方式设置执行环境的并行度：


 
 
   
   
    
    
   
   
   
   
    
    
     
     final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     env.setParallelism(
     
     3);
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     DataStream<
     
     String> 
     
     text = [...]
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     DataStream<Tuple2<
     
     String, 
     
     Integer>> wordCounts = [...]
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     wordCounts.print();
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     env.execute(
     
     "Word Count Example");

并行度设置之Client Level

并行度可以在客户端将job提交到Flink时设定。对于CLI客户端，可以通过-p参数指定并行度：

./bin/flink run -p 10 ../examples/*WordCount-java*.jar

并行度设置之System Level

在系统级可以通过设置flink-conf.yaml文件中的parallelism.default属性来指定所有执行环境的默认并行度

并行度设置的优先级

magina_lil

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flink 并行度详解

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/Jiny_li/article/details/86482112 &lt;/div&gt; &lt;link rel="stylesheet" href="https://csdnimg.cn/release/pho...
复制链接

扫一扫