Flume：HDFS Sink频繁生成小文件，不按照设定属性滚动文件解决方案(源码)、hdfs.minBlockReplicas作用

最新推荐文章于 2023-04-15 20:50:47 发布

VIP文章瞧德

最新推荐文章于 2023-04-15 20:50:47 发布

阅读量2.8k

点赞数 3

分类专栏： flume 文章标签： flume HDFS sink hdfs.minBlockReplicas

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39192827/article/details/99065612

版权

比如我们想要通过Flume将数据输出到HDFS中，并且希望每个文件100K左右，可以这么设置sink属性

a1.channels = c1
a1.sinks = k1
 
a1.sinks.k1.type = hdfs
a1.sinks.k1.channel = c1
#目录名为/flume/小时-分钟/秒
a1.sinks.k1.hdfs.path = /flume/%H-%M/%S
a1.sinks.k1.hdfs.round = true 
a1.sinks.k1.hdfs.useLocalTimeStamp = true
a1.sinks.k1.hdfs.hdfs.fileType = DataStream
#每1分钟目录滚动一次
a1.sinks.k1.hdfs.roundValue = 1
a1.sinks.k1.hdfs.roundUnit = minute 
#文件滚动不依据时间或事件数
a1.sinks.k1.rollInterval = 0
a1.sinks.k1.rollCount = 0
#每100K滚动一次文件
a1.sinks.k1.rollSize = 102400

结果发现每15K就滚动一次，解决方案是加上一条属性

a1.sinks.k1.hdfs.minBlockReplicas = 1

hdfs.minBlockReplicas指的是flume允许的最小块副本数，默认为hdfs副本数(我的机器为3)。HDFS sink文件滚动时还会考虑是否正在进行块复制，设置为1可以让flume感知不到hdfs的块复制，从而不发生滚动

我个人的理解是由于datanode之间副本的复制是通过pipiline传送的，flum

最低0.47元/天解锁文章

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Flume：HDFS Sink频繁生成小文件，不按照设定属性滚动文件解决方案(源码)、hdfs.minBlockReplicas作用

比如我们想要通过Flume将数据输出到HDFS中，并且希望每个文件100K左右，可以这么设置sink属性a1.channels = c1a1.sinks = k1 a1.sinks.k1.type = hdfsa1.sinks.k1.channel = c1#目录名为/flume/小时-分钟/秒a1.sinks.k1.hdfs.path = /flume/%H-%M/%Sa1....
复制链接

扫一扫

专栏目录

瞧德 CSDN认证博客专家 CSDN认证企业博客

码龄7年

128: 原创

4万+: 周排名

166万+: 总排名

38万+: 访问

: 等级

4675: 积分

211: 粉丝

614: 获赞

72: 评论

2681: 收藏

私信

关注

热门文章

分类专栏

Hadoop 29篇
HBase 8篇
Linux 15篇
Java基础 11篇
Java并发编程 13篇
python数据分析 3篇
MySql 5篇
JVM调优 4篇
Java Web 4篇
Java IO 5篇
python爬虫 7篇
python 2篇
scrapy
zookeeper
Hive 6篇
大数据 1篇
Scala 2篇
spark 8篇
flume 2篇
kafka 2篇
flink 1篇

最新评论

VMware虚拟机三种网络模式：桥接模式，NAT模式，仅主机模式
m0_46337375: 更正：VMnet8关闭了不能ping外部网站
VMware虚拟机三种网络模式：桥接模式，NAT模式，仅主机模式
m0_46337375: 逆天NAT模式下,VMnet8不能ping外部网站，只能ping其余内网ip端口。NAT模式明显有错。NAT模式是：基于NAT服务器和VMware VMnet8一起实现与外部网络交流的。你VMware VMnet8都关了怎么可能会还能连接外部网络。
Hadoop：分布式集群多次格式化文件系统，导致datanode无法启动解决方案
我爱谢小姐: 找不到data下面的current是什么情况啊
Java：强引用，软引用，弱引用和虚引用
渔舟小汀: 我在ArrayList中clear之后，再add的hashcode，和clear之前的是不一样的，不是说hashcode就相当于内存地址吗，如果clear不释放内存，为什么会不一样
Hadoop：详解HDFS启动过程及相关节点工作机制（检查点机制、安全模式）
「已注销」: 楼主您可以看到吗？我想问下当checkPoint开启的时候，nameNode会停止edit_inprogress的使用再创造一个新的edit_progress对吧，那存在原来edit_progress中的edit信息如何调整呢？是全部复制到新的progress中还是一并拷贝到SNN中与fsimage文件合并呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。