Hadoop小文件弊端及解决方案

最新推荐文章于 2024-04-18 22:21:48 发布

qq_45688530

最新推荐文章于 2024-04-18 22:21:48 发布

阅读量404

点赞数 1

文章标签： hadoop mapreduce big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45688530/article/details/121765659

版权

Hadoop小文件弊端

HDFS上每个文件都要在NameNode上创建相应的元数据，这个元数据大小约为150byte，这样的小文件比较多时，会产生很多的元数据文件，一方面会大量占用NameNode的内存空间，一方面因为元数据文件过多，会使寻址速度变慢

小文件过多，在进行,MR计算时，会产生过多切片4，需要启动过多的MapTask。每个MapTask处理的数据量小，导致MapTask的处理时间比启动时间还小，造成资源的浪费

Hadoop 小文件 解决方案

小文件优化的方向：

（1）在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS。

（2）在业务处理之前，在HDFS上使用 M ap R educe程序对小文件进行合并。

（3）在 M ap R educe处理时，可采用 CombineTextInputFormat 提高效率。

（ 4 ）开启uber模式，实现jvm重用

H adoop Archive

是一个高效的将小文件放入HD FS 块中的文件存档工具，能够将多个小文件打包成一个HAR文件，从而达到减少NameNode的内??????

Sequence File

Sequence File 是由一系列的二进制k/ v 组成，如果为key为文件名，value为文件内容，可将大批小文件合并成一个大文件

Combine TextInputFormat

CombineTextInputFormat 用于将多个小文件在切片过程中生成一个单独的切片或者少量的切片。

开启uber模式，实现jvm重用。默认情况下，每个Task任务都需要启动一个jvm来运行，如果Task任务计算的数据量很小，我们可以让同一个Job的多个 Task 运行在一个Jvm中，不必为每个Task都开启一个Jvm.

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hadoop小文件弊端及解决方案

Hadoop小文件弊端HDFS上每个文件都要在NameNode上创建相应的元数据，这个元数据大小约为150byte，这样的小文件比较多时，会产生很多的元数据文件，一方面会大量占用NameNode的内存空间，一方面因为元数据文件过多，会使寻址速度变慢小文件过多，在进行,MR计算时，会产生过多切片4，需要启动过多的MapTask。每个MapTask处理的数据量小，导致MapTask的处理时间比启动时间还小，造成资源的浪费Hadoop小文件解决方案小文件优化的方向：（1）在数...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

qq_45688530 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。