hadoop 源码阅读
dragon_fire
这个作者很懒,什么都没留下…
展开
-
[hadoop源码阅读][0]-初衷和各种资源
初衷 一直业余的维护着一个hadoop应用程序,一直想看点hadoop源码,主要依据这篇博文(http://caibinbupt.iteye.com/blog/262412)的线索看下去,如果中途有自己感兴趣的就先散开看看. 原则以看代码为主,看别人的文章为辅,但是也不会很仔细的阅读每行代码,知道那些代码能干些什么事,以后遇到问题回来仔细查看,同时将自己看到过的资料记录下来,基本不会自己总结写转载 2012-12-17 20:12:48 · 320 阅读 · 0 评论 -
Hadoop源代码分析之Configuration配置
http://blog.csdn.net/dahaifeiyu/article/details/6655652 最近也觉得应该仔细的看一下Hadoop的源代码了,以前只是懂得基本的架构了使用,最近在做一个系统,觉得很多东西可以借鉴MapReduce的可扩展性。但是当我们的系统的0.1版本出现的时候才发现我们的配置上很混乱。于是我自己的看了一下Hadoop的Configuration类,真转载 2013-03-17 03:34:24 · 657 阅读 · 0 评论 -
[hadoop源码阅读][4]-org.apache.hadoop.io.compress系列3-使用压缩
转自:http://www.cnblogs.com/xuxm2007/archive/2012/06/15/2551028.html hadoop中支持的压缩方式有多种,比如Gzip,bzip2,zlib等,其中Gzip是hadoop中内置就支持的一种压缩方式,这种压缩方式在平时linux的开发人员和管理员中使用的比较广泛,压缩比也比较高,压缩速度也还不错,所以很多人都喜欢第一趋向于使用这种压缩转载 2012-12-01 15:04:13 · 669 阅读 · 0 评论 -
[hadoop源码阅读][4]-org.apache.hadoop.io.compress系列1-认识解码器/编码器
转自:http://www.cnblogs.com/xuxm2007/archive/2012/06/15/2550996.html 编码器和解码器用以执行压缩解压算法。在Hadoop里,编码/解码器是通过一个压缩解码器接口实现的。因此,例如,GzipCodec封装了gzip压缩的压缩和解压算法。下表列出了Hadoop可用的编码/解码器。 压缩格式 Hadoop转载 2012-12-01 14:20:48 · 525 阅读 · 0 评论 -
[hadoop源码阅读][5]-counter的使用和默认counter的含义
转自:http://www.cnblogs.com/xuxm2007/archive/2012/06/15/2551030.html ps: 在map和reduce的过程中,可以通过设置Context.setStatus()来随时设置状态,这个底层也是使用reporter来设置的 1.在0.20.x版本中使用counter很简单,直接定义即可,如无此counter,hadoop会自动转载 2012-12-20 17:06:32 · 394 阅读 · 0 评论 -
[hadoop源码阅读][4]-org.apache.hadoop.io.compress系列2-选择编解码器
转自:http://www.cnblogs.com/xuxm2007/archive/2012/06/15/2551026.html 在考虑如何压缩那些将由MapReduce处理的数据时,考虑压缩格式是否支持分割是很重要的。考虑存储在HDFS中的未压缩的文件,其大小为1GB,HDFS的块大小为64MB,所以该文件将被存储为16块,将此文件用作输入的MapReduce作业会创建1个输人分片(转载 2012-12-01 14:28:10 · 403 阅读 · 0 评论 -
[hadoop源码阅读][3]-新旧api区别
http://blog.csdn.net/xw13106209/article/details/6924458 hadoop 版本0.20和之前的版本差距较大,包括部分api结构,配置文件结构 在hadoop 权威指南中有说明,原文如下: The new Java MapReduce API Release 0.20.0 of Hadoop included a new Jav转载 2012-12-17 20:20:44 · 447 阅读 · 0 评论 -
[hadoop源码阅读][1]-源码目录结构
转自 :http://www.cnblogs.com/xuxm2007/archive/2012/06/15/2550982.html 由于版本的不同,可能部分目录有些不同. http://clearity.iteye.com/blog/1331489 首先我们需要对hadoop解压包的目录结构有个大概了解,解压下载的hadoop1.0.0版本压缩包到文件系统,转载 2012-12-17 20:14:14 · 445 阅读 · 0 评论 -
[hadoop源码阅读][4]-org.apache.hadoop.io
转自:http://www.cnblogs.com/xuxm2007/archive/2012/06/15/2550986.html 1.下面是主要的类层次图 2.Writable和WritableComparable的子类们基本大同小异 3.RawComparator和WritableComparator 举例如下,以下以text类型的comparator每转载 2012-12-01 15:10:00 · 501 阅读 · 0 评论 -
[hadoop源码阅读][2]-package结构
http://caibinbupt.iteye.com/blog/270378 Package Dependences tool 提供一些命令行工具,如DistCp,archive mapreduce Hadoop的Map/Reduce实现 filecache 提供HDFS文转载 2012-12-17 20:15:49 · 360 阅读 · 0 评论 -
HDFS API详解
Hadoop中关于文件操作类基本上全部是在"org.apache.hadoop.fs"包中,这些API能够支持的操作包含:打开文件,读写文件,删除文件等。 Hadoop类库中最终面向用户提供的接口类是FileSystem,该类是个抽象类,只能通过来类的get方法得到具体类。get方法存在几个重载版本,常用的是这个: static FileSystem get(Config转载 2013-03-17 03:47:42 · 738 阅读 · 1 评论