Hadoop系统入门之（讨论群内直播内容分享）Hadoop小问题剖析

最新推荐文章于 2024-06-25 15:18:35 发布

GoodMorning_可口可乐

最新推荐文章于 2024-06-25 15:18:35 发布

阅读量57

点赞数

分类专栏： hadoop 文章标签： java

本文链接：https://blog.csdn.net/GoodMorning_1992/article/details/119386426

版权

17 篇文章 0 订阅

订阅专栏

小文件问题:
Hadoop存储TB甚至更大级别的数据集。
File==>block==>3==>DN directory
元数据信息 NN 内存
100M vs 1k

什么是小文件:
CDH blocksize 128M 64M
128M 200M ???
64M 200M ???
256M 200M ???
blocks==> 元数据信息
1M 20M?
NN的内存是多少？能存储多少block.

文件怎么产生的？
故障: 解决==>为什么会产生这个故障？==>解决或者规避这个故障？

通过某种手段把数据采集过来的
Flume 采集到HDFS的数据是会有很多小文件raw源数据
Logstash
WebServer==>HDFS

   
MR/Hive/Spark
	ETL  产生很多小文件。
	Stat  数据仓库 分好几层 又是一堆小文件。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注