hadoop
SebastianHe
这个作者很懒,什么都没留下…
展开
-
FSEditLog之edit 记录过程
https://my.oschina.net/u/3987818/blog/2874669转载 2018-11-14 09:05:01 · 379 阅读 · 0 评论 -
FSEditLog之核心类分析
https://my.oschina.net/u/3987818/blog/2874929转载 2018-11-14 09:06:21 · 210 阅读 · 0 评论 -
MapReduce读取数据
MapReduce处理数据的基本原则之一就是将输入数据分割成片(split),按片读取数据,每个分片交由一个Mapper去做处理。注意,输入分片只是一种逻辑划分,有别于hdfs的数据分块(block),数据分块是数据的物理划分。InputFormat类抽象出了数据分片和读取这两个操作,具体实现交由子类去完成,除了hadoop默认提供的一些子类之外,我们可以自己根据实际需要进行扩...原创 2014-07-06 19:27:45 · 1157 阅读 · 1 评论 -
LocalJobRunner
hadoop作业分本地模式和分布式模式两种执行模式,JobClient初始化时会读取配置项mapred.job.tracker(默认为local),如果该配置项的值为local,则hadoop采本地模式执行作业,否则采用分布式模式执行。本地模式使用LocalJobRuner提交并执行作业。对LocalJobRunner实例调用submitJob( )方法会创建Job(LocalJ...2014-07-08 00:01:05 · 626 阅读 · 0 评论 -
hadoop作业提交流程分析
本篇博客将以WordCount为例从源码上分析hadoop作业提交流程,所使用的hadoop版本为cdh4.3.0。 hadoop作业提交流程如下图所示: public static void distribute() throws Exception { /*指定Hadoop 环境的用户名称, 如果不指定会抛org.apache.hado...2014-04-07 14:43:14 · 280 阅读 · 0 评论 -
hadoop SLA
hadoop sla(Service Level Authorization)核心源码分析https://my.oschina.net/u/3987818/blog/3093732转载 2019-08-20 09:26:29 · 162 阅读 · 0 评论 -
hdfs Balancer剖析
HDFSBalancer原理、核心代码剖析、常见问题诊断。https://my.oschina.net/u/3987818/blog/3086282转载 2019-08-11 10:51:58 · 279 阅读 · 0 评论 -
LightWeightGSet(hadoop namenode 保存block的数据结构)
为了降低保存block的内存开销,同时保证访问效率,namenode使用 LightWeightGSet这一数据结构。LightWeightGSet同HashMap一样使用数组 + 链表的结构,但是有几点不同:数组长度初始化时就确定了,以后不会再变化,所有没有rehash。 本质上不是key/value存储结构。value是key的子类,所以value自身就包含了key的信息,通过key...转载 2019-08-24 12:07:27 · 291 阅读 · 0 评论 -
UnderReplicatedBlocks处理流程
此图基本解释清楚了hdfs处理block副本不足、分布不合理的流程。https://my.oschina.net/u/3987818/blog/3100408转载 2019-09-01 13:12:29 · 491 阅读 · 0 评论