- 博客(3)
- 收藏
- 关注
原创 Flink-Task、SubTask、并行度
Task与SubTask 一个算子就是一个Task. 一个算子的并行度是几,这个Task就有几个SubTask 对应关系: 算子=Task 并行度=SubTask task是抽象概念,subtask是物力概念 Parallelism并行度 默认并行度--cpu核数 关键点 不同的并行度(subtask),肯定在不同的slot,但也可能在不同的taskmanager 一个流程序的并行度,可以认为就是其所有算子中算子并行度最大的并行度 数据传输模式: One-to-one:.
2021-08-01 09:37:20
1021
原创 hadoop-HDFS数据读写及存储
读数据流程 第一个块读完,再读第二个块 读数据流程:1.创建文件对象 2.利用文件对象创建输入流 3.关闭资源 public class HDFSClient { FileSystem fs = null; @Before public void before() throws URISyntaxException, IOException, InterruptedException { //创建连接对象 Configuration
2021-07-31 16:54:05
273
原创 hadoop的job提交流程
job提交流程(由客户端提交job) 说明:上传的job.jab就是自己自定义的jar包,用来在yarn实现MAP和Reduce 提交内容: 1、jar包 2、切片信息 3、xml配置文件 为什么要提交配置信息:job提交给yarn,生成appmaster,appmaster需要配置文件conf(job.xml)才能知道干什么 1.job.waitForCompletion(true) //开始提交Job 1.1 state == JobState.DEFINE //当前Job状态的判断,如果是run
2021-07-31 16:38:56
629
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人