hadoop
拾荒路上的开拓者
可能出错的地方,一定会出错
展开
-
MapReduce Shuffle流程简图
转载 2022-03-01 19:25:11 · 211 阅读 · 0 评论 -
NameNode的双缓冲机制代码实现
每次请求NameNode修改一条元数据(比如说申请上传一个文件,那么就需要在内存目录树中加入一个文件),都要写一条edits log,包括两个步骤: 写入本地磁盘。 通过网络传输给JournalNodes集群。 NameNode在写edits log时的第一条原则: 必须保证每条edits log都有一个全局顺序递增的transactionId(简称为txid),这样才可以标识出来一条一条的...原创 2020-04-20 21:32:02 · 469 阅读 · 4 评论 -
hadoop2.7.0源码之DataNode启动流程
本文将结合hadoop2.7.0版本的源码与UML图对DataNode的初始化流程进行深入剖析,旨在更深入地理解DataNode初始化的整体逻辑 第一步:查看DataNode的入口方法main() public static void main(String args[]) { if (DFSUtil.parseHelpArgument(args, DataNode.USAGE, S...原创 2020-04-19 11:11:48 · 423 阅读 · 0 评论 -
hadoop2.7.0源码之NameNode启动流程
本文将结合hadoop2.7.0版本的源码与UML图对NameNode的启动流程进行深入剖析,旨在更深入地理解NameNode启动的整体逻辑 第一、二步:找到NameNode的启动入口main()方法,进入方法体createNameNode() public static void main(String argv[]) throws Exception { if (DFSUtil....原创 2020-04-18 15:39:44 · 396 阅读 · 0 评论 -
浅谈YARN架构与原理
一、什么是YARN YARN是Hadoop2.0版本引进的资源管理系统,直接从MR1演化而来 核心思想:将MR1中的JobTracker的资源管理和作业调度两个功能分开,分别由ResourceManager和ApplicationMaster进程实现 ResourceManager:负责整个集群的资源管理和调度 ApplicationMaster:负责应用程序相关事务,比如任务调度、任务...原创 2019-02-09 12:35:10 · 3794 阅读 · 0 评论