![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据导论
大数据导论
Dxm234573
这个作者很懒,什么都没留下…
展开
-
YARN的工作机制
<1>主要作用:强化控制和使用资源管理功能。 <2>工作机制:1.MapReduce提交到客户端所在节点 2.客户端向资源管理器提交申请,在将应用程序返回给客户端,将运行资源提交到HDFS上,提交完毕后申请运行。 3.RM将用户的请求转换为任务,其中的一个名称节点领取到任务,这个名称节点建立容器。产生MRAppmaster 4.容器从HDFS上复制资源. 5.RM将任务平均分配给其他节点,并创建容器,MR在发送程序,继续进行。 6.将所有任务运行完毕运行ReduceTas原创 2021-11-01 23:01:08 · 148 阅读 · 0 评论 -
节点距离计算
1.Distance(dl/rl/n0,/dl/rl/n0)=0(同一点上的进程) 2.Distance(dl/r2/n0,dl/r3/n2)=4(同一数据中心不同机架上的节点) 3.Distance(dl/rl/n1,/dl/rl/n2)=2(同一机架上的不同节点) 4.Distance(/dl/r2/n1,/d2/r4/n1)=6(不同数据中心的节点) 注:名称节点会选择与最近的一个数进行计算 ...原创 2021-11-01 23:29:44 · 124 阅读 · 0 评论 -
HDFS的block和切片(split)的联系和区别
<1>联系:HDFS的block和切片(split)的大小相等。 <2>区别: 1.HDFS存储数据在数据节点上,block是数据节点储存数据的一个个单位 2.split是把block切分而成的虚拟定义 3.split是MapReduce的概念,是切片的概念,split是逻辑切片;而block是hdfs中的切块大小,block是物理切块 注:split与block的大小相同是为了方便运输 ...原创 2021-11-01 22:31:51 · 1676 阅读 · 0 评论 -
HDFS读数据流程
1读取文件名称。 2.向名称节点获取文件第一批数据块的位置。 3.通过分布式文件系统调用数据来获取位置,数据块根据副本返回数返回对应数量的位置数 4.获取距离clinet最近的数据节点建立通信,数据会源源不断的写入clinet,假设第一个数据块读写完成,则会进入下一个数据块,如果所有块读完,则数据流关闭 5.如果读取中出现异常,则会先去优先读第二个位置的数据节点 ...原创 2021-11-01 22:01:35 · 74 阅读 · 0 评论 -
HDFS写数据流程
1~首先客户端通过分布式文件系统模块对名称节点进行请求,观察输出输入目录中有没有相应的文件,观察是否有权限进行,2~当名称节点检查目录对结果返回客户端,客户端向名称节点发布请求,名称节点创建文件,并将文件分成各数据块 3~设立3个数据节点,将数据节点的位置返回给客户端,4~客户端请求数据节点1上传数据,后再调用数据节点2和数据节点3。5~客户端上传完第一个数据块,客户端会再次请求名称节点,上传第二个数据块。6~当所有数据块全部写完数据节点会向客户端发出确认,客户端向名称节点发出结束,就成功储存了信息 ...原创 2021-10-26 20:58:46 · 91 阅读 · 0 评论