hadoop
huangmr0610
简介
展开
-
hadoop相关随记
1、用来查询集群上启动的job,并杀掉DumpTrack状态的job:yarn application -list|grep DumpTrack|awk ‘{print $1}’ | xargs yarn application -kill原创 2016-06-01 17:18:18 · 564 阅读 · 0 评论 -
HDFS小文件问题及解决方案
1、 概述小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大约需要2G空间。如果存储1亿个文件,则namenode需要20G空间(见参转载 2016-07-01 09:15:18 · 11478 阅读 · 3 评论