hadoop
文章平均质量分 78
huangxiaoxun235
这个作者很懒,什么都没留下…
展开
-
mr的shuffle过程
Map TaskMap Task产生输出的时候,并不是直接将数据写到本地磁盘,这个过程涉及到两个部分:写缓冲区、预排序。(1)写缓冲区每一个Map Task都拥有一个“环形缓冲区”作为Mapper输出的写缓冲区。写缓冲区大小默认为100MB(通过属性io.sort.mb调整),当写缓冲区的数据量达到一定的容量限额时(默认为80%,通过属性io.sort.spill.percent调整)转载 2017-06-15 13:39:53 · 3921 阅读 · 0 评论 -
hadoop要点
(1)hadoop小文件影响效率原因:小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大约需要2G空间。如果存储1亿个文件,则namenod转载 2017-06-15 10:56:19 · 631 阅读 · 0 评论