![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据基础
文章平均质量分 83
高清靓仔
这个作者很懒,什么都没留下…
展开
-
Flink-Task、SubTask、并行度
Task与SubTask 一个算子就是一个Task. 一个算子的并行度是几,这个Task就有几个SubTask 对应关系: 算子=Task 并行度=SubTask task是抽象概念,subtask是物力概念 Parallelism并行度 默认并行度--cpu核数 关键点 不同的并行度(subtask),肯定在不同的slot,但也可能在不同的taskmanager 一个流程序的并行度,可以认为就是其所有算子中算子并行度最大的并行度 数据传输模式: One-to-one:.原创 2021-08-01 09:37:20 · 1034 阅读 · 0 评论 -
hadoop的job提交流程
job提交流程(由客户端提交job) 说明:上传的job.jab就是自己自定义的jar包,用来在yarn实现MAP和Reduce 提交内容: 1、jar包 2、切片信息 3、xml配置文件 为什么要提交配置信息:job提交给yarn,生成appmaster,appmaster需要配置文件conf(job.xml)才能知道干什么 1.job.waitForCompletion(true) //开始提交Job 1.1 state == JobState.DEFINE //当前Job状态的判断,如果是run原创 2021-07-31 16:38:56 · 635 阅读 · 0 评论 -
hadoop-HDFS数据读写及存储
读数据流程 第一个块读完,再读第二个块 读数据流程:1.创建文件对象 2.利用文件对象创建输入流 3.关闭资源 public class HDFSClient { FileSystem fs = null; @Before public void before() throws URISyntaxException, IOException, InterruptedException { //创建连接对象 Configuration原创 2021-07-31 16:54:05 · 274 阅读 · 0 评论