Flume 数据采集系统性能优化和关键问题汇总

最新推荐文章于 2024-08-20 01:56:22 发布

小草君

最新推荐文章于 2024-08-20 01:56:22 发布

阅读量1.3w

点赞数

分类专栏：互联网 java 文章标签：大数据 hadoop flume

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ldds_520/article/details/51558298

版权

本文详细介绍了Flume的性能优化策略，包括Source、Channel和Sink三个组件的关键参数调整，如Spooling Directory Source的batchSize和inputCharset，Memory Channel的transactionCapacity和byteCapacity，以及Sink的数据输出性能优化。此外，还强调了组件间数据传输速度一致性的重要性，以及整体架构的灵活设计和Java内存配置，为保证Flume系统的稳定性和高效运行提供了指导。

摘要由CSDN通过智能技术生成

flume 性能优化

flume的整体基础架构包括三个，分别是source,chanel, sink. 下面是官网的截图：

因此，优化要从三个组件的角度去分别优化。

1、source

sources是flume日志采集的起点，监控日志文件系统目录。其中最常用的是 Spooling Directory Source ， Exec Source 和 Avro Source 。

关键参数讲解：

（1）batchSize：这个参数当你采用的是 Exec Source 时，含义是一次读入channel的数据的行数，当你采用Spooling Directory Source含义是 Granularity（粒度） at which to batch transfer to the channel ，据我分析应该是events（flume最小处理数据单元）的数量。

这个参数一般会设置比较大，一般的数值跟每秒要处理的数值相当。

（2）inputCharset 这个很重要，就是文本文件的编码，默认是flume按照utf-8处理，如果文本数据是gbk，则要增加此参数,

（3）interceptors flume自带的拦截器，可以根据正则表达式去过滤数据，但是据我实际经验总结，这个配置很影响入库性能，因此这部分工作我基本都在sink代码里面做。

最低0.47元/天解锁文章

关注

0
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。