小文件问题:
Hadoop存储TB甚至更大级别的数据集。
File==>block==>3==>DN directory
元数据信息 NN 内存
100M vs 1k
什么是小文件:
CDH blocksize 128M 64M
128M 200M ???
64M 200M ???
256M 200M ???
blocks==> 元数据信息
1M 20M?
NN的内存是多少?能存储多少block.
文件怎么产生的?
故障: 解决==>为什么会产生这个故障?==>解决或者规避这个故障?
通过某种手段把数据采集过来的
Flume 采集到HDFS的数据是会有很多小文件raw源数据
Logstash
WebServer==>HDFS
MR/Hive/Spark
ETL 产生很多小文件。
Stat 数据仓库 分好几层 又是一堆小文件。