解决flume往hdfs中写大量小文件问题

data-sun

已于 2023-09-04 08:39:15 修改

阅读量566

点赞数 2

文章标签： flume hdfs 大数据 hadoop

于 2023-09-03 17:54:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_54501766/article/details/132652523

版权

小文件问题是指在HDFS中存在大量的小文件，这会给HDFS带来额外的开销，影响存储和计算的效率。

要是要对小文件进行计算,那么hdfs中每一个小文件都会对应生成一个task,而每一个task的形成和计算都会占用一定的资源和启停时间,影响计算效率
nn中要记录dn中存储的数据索引,小文件过多会生产很多记录占用nn内对应的容量,影响nn的寿命

在flume的-f 对象conf中,设置sink的相关参数可以改善这种情况

#实例a1,k1,具体情况具体更改
#表示每隔多少秒，Flume就会将内部的缓冲区数据写入HDFS。
a1.sinks.k1.hdfs.rollInterval

#表示当Flume的内部缓冲区达到指定字节数时，就会触发写入操作。
a1.sinks.k1.hdfs.rollSize

#表示不论内部缓冲区的大小或时间，当写入的文件数量达到指定数量时，就会触发滚动操作。
a1.sinks.k1.hdfs.rollCount

#示例
a1.sinks.k1.hdfs.rollInterval = 10
a1.sinks.k1.hdfs.rollSize = 134217728
a1.sinks.k1.hdfs.rollCount = 0

#这里将时间改为10秒(rollInterval的单位是秒)提交一次,
#rollSize设置为128M(rollSize单位是字节bytes)贴合我的分块大小,
#预期是每满128M数据就提交一次,但是为了防止可能最后的数据不够128M,
#一直提交不了,设置了10秒(根据情况,我的10s差不多就能满128M)解决这个问题,
#rollCount设为0表示关闭指定数量触发滚动的机制,是为了防止又出现文件数大小特别小且数量多的小文件情况

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
解决flume往hdfs中写大量小文件问题

小文件问题是指在HDFS中存在大量的小文件，这会给HDFS带来额外的开销，影响存储和计算的效率。在flume的-f 对象conf中,设置sink的相关参数可以改善这种情况。
复制链接

扫一扫

data-sun CSDN认证博客专家 CSDN认证企业博客

码龄4年

31: 原创

132万+: 周排名

9万+: 总排名

6694: 访问

: 等级

366: 积分

38: 粉丝

55: 获赞

4: 评论

26: 收藏

私信

关注

热门文章

最新评论

mysql面试简洁版
CSDN-Ada助手: 恭喜您撰写了第17篇博客，题为“MySQL面试简洁版”！您的持续创作态度令人钦佩。不仅标题吸引人，内容也一定精彩。鉴于您在MySQL方面的专业知识，我建议您在接下来的创作中，可以考虑分享一些实用的MySQL技巧或者深入的案例分析，以帮助读者更好地应用和理解MySQL。期待您更多的博客，不胜期待！
处理too many open files相关限制及拓展
CSDN-Ada助手: 恭喜您撰写了第14篇博客！标题“处理too many open files相关限制及拓展”引人瞩目。您对这个主题的深入探讨无疑为读者提供了宝贵的解决方案。继续保持创作的势头是非常值得鼓励的，因为您的知识分享对于那些遇到类似问题的人来说至关重要。在下一步的创作中，或许您可以考虑为读者提供一些实际案例或者具体的操作步骤，以帮助他们更好地理解和应用您所讨论的解决方案。此外，您还可以探索相关主题的更多扩展，例如如何优化系统资源利用或者与其他限制问题的应对等等。期待您的下一篇博客，也希望您能继续为读者带来更多有价值的内容！
回顾数据仓库建模流程
CSDN-Ada助手: 恭喜您撰写第13篇博客！回顾数据仓库建模流程是一个非常有价值的主题，对于我们理解数据仓库的构建过程和优化数据存储具有重要意义。您的博客内容详实、逻辑清晰，让读者更好地了解了数据仓库建模的流程。在下一步的创作中，我谦虚地建议您可以探讨一些实践经验或者案例分享，将理论与实际应用相结合，这将进一步提升您的博客质量。同时，您还可以考虑分享一些常见的问题和解决方案，以帮助读者更好地应对数据仓库建模过程中的挑战。再次祝贺您的连续创作，并期待您在未来的博客中继续为我们带来更多有价值的内容！
hive配置
CSDN-Ada助手: 恭喜你写了第12篇博客！标题为“hive配置”的主题非常实用。很高兴看到你在持续创作并分享你的经验。在下一步的创作中，或许你可以考虑分享一些关于hive配置的实际案例，或者提供一些优化hive配置的技巧，这样读者能够更深入地了解这个主题。继续加油，期待你未来更多有价值的博客！
centos7中进行hadoop搭建全过程
CSDN-Ada助手: 非常感谢您分享了这篇关于centos7中进行hadoop搭建的博文！您的详细步骤和示例地址对读者来说非常有帮助。希望您能继续创作，分享更多关于hadoop搭建的经验和技巧。除了您提到的安装模版虚拟机和配置要求外，我想补充一些与该博文相关的扩展知识和技能。首先，了解如何在CentOS上安装和配置Hadoop集群。其次，学习如何优化Hadoop集群的性能，例如调整配置参数和使用合适的硬件设备。此外，了解Hadoop生态系统中的其他组件，如Hive、HBase和Spark等，可以进一步扩展您的大数据技术栈。希望这些建议能对您有所帮助。再次感谢您的分享，期待看到更多精彩的博文！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。