![](https://img-blog.csdnimg.cn/20190918140037908.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
分布式计算
文章平均质量分 92
主要介绍分布式计Hadoop家族、云原生等大数据知识
vincy's
这个作者很懒,什么都没留下…
展开
-
Hadoop+MapReduce实现原理(附录)
本文是对《Hadoop+MapReduce实现原理》系列文章中的一些概念再做一下详细的解释,不写在正文里是为了不影响正文整个的阅读思路,并不是因为不重要,附录中的介绍也是非常重要的MapReduce中的思想为了避免中间数据的可靠性(因为一旦丢失,任务要重跑),将数据写到不同的磁盘上;为了中间数据可以并发写(多个map任务可能会同时写中间数据),所以要写到多个磁盘上。对于任意一个作业,在每个磁盘都会为它创建一个目录让它来存储数据,具体使用哪一个是通过轮询的策略来决定(由LocalDirAllocator类实现原创 2022-06-01 12:05:27 · 134 阅读 · 0 评论 -
Hadoop+MapReduce实现原理(二)
第二部分主要介绍,MapReduce的生命周期及其内部实现 一、作业提交及初始化 用户使用Hadoop的提供的Shell命令提交作业 JobClient按照JobConf将需要的文件都上传到HDFS的某个目录下 JobClient调用RPC接口向JobTracker提交作业 JobTracker将其告知TaskScheduler,TaskScheduler对作业初始化 下面对步骤二、三详细介绍 1. 文件上传 一个作业需要的文件包括程序jar包、程序依赖的第三方jar包、xml作业配置文件及依赖的普通原创 2022-05-17 17:34:00 · 350 阅读 · 0 评论 -
Hadoop+MapReduce实现原理(一)
一、HDFS存储 HDFS是master-slave(NameNode-DataNode)架构: Client:用户使用HDFS的接口 NameNode:一个HDFS集群只有一个NameNode 存储全部文件元数据,包括fsimage(元数据镜像文件)和editlog(文件改动日志) 监控DataNode的健康状态,DataNode宕机后及时备份 Secondary NameNode:定期合并fsimage和editlog,做checkpoint DataNode:一个Slave节点有原创 2022-05-15 16:23:19 · 634 阅读 · 0 评论