hadoop
虎钳
这个作者很懒,什么都没留下…
展开
-
设定InputSplitSize确定Map Task数
都知道运行job时可以通过Job.setNumReduceTasks(int tasks)来设定Reduce任务数,那么Map任务数如何设定呢,API中并没有提供像直接指定Reduce任务数那样来直接指定Map任务数的方法,先来理下逻辑: 首先,文件在上传到Hdfs文件系统的时候,被切分成不同的Block块(默认大小为128MB,这里是hadoop2,hadoop1是64M)。但是每个Map...原创 2016-01-08 09:10:20 · 623 阅读 · 0 评论 -
hadoop block
1、Block,文件块:最基本的存储单位。文件被切成多个Block,存在dataNode之上,dataNode上会有多个不同Block,相同Block存在于多个dataNode上。 对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。HDFS默认Block大小是128MB,以一个256MB文件,共...原创 2016-01-08 09:16:12 · 297 阅读 · 0 评论 -
hadoop hdfs fsimage和eidts
1、在HDFS中,fsimage和eidts是NameNode两个非常重要的文件。 其中,fsimage是HDFS文件系统存于硬盘中的元数据检查点,里面记录了自最后一次检查点之前HDFS文件系统中所有目录和文件的序列化信息;而edits保存了自最后一次检查点之后所有针对HDFS文件系统的操作,比如:增加文件、重命名文件、删除目录等等。 2、在NameNode启动时候,会先将fsimage中...原创 2016-01-09 10:08:40 · 258 阅读 · 0 评论