调优之Flume（更新中...）

zjc4j

于 2021-04-16 17:36:38 发布

阅读量152

点赞数

分类专栏：大数据文章标签：大数据 flume

本文链接：https://blog.csdn.net/qq_29494693/article/details/115768063

版权

大数据专栏收录该内容

11 篇文章 0 订阅

订阅专栏

调优小总结

1. 启动消费Flume抛出OutOfMemoryError

现象：

 ERROR hdfs.HDFSEventSink: process failed 
 java.lang.OutOfMemoryError: GC overhead limit exceeded

内存不足导致的，在flume-env.sh文件增大分配的内存，注意：-Xmx与-Xms最好设置一致，减少内存抖动带来的性能影响，如果设置不一致容易导致频繁fullgc。
flume/conf/flume-env.sh文件中增加如下配置：

export JAVA_OPTS="-Xms100m -Xmx2000m -Dcom.sun.management.jmxremote"

2. FileChannel优化

通过配置dataDirs指向多个路径，每个路径对应不同的硬盘，增大Flume吞吐量。
checkpointDir和backupCheckpointDir也尽量配置在不同硬盘对应的目录中，保证checkpoint坏掉后，可以快速使用backupCheckpointDir恢复数据。

3. HDFS Sink的小文件处理

在Hadoop中，小文件主要导致两方面问题，一方面，每个小文件都有一份元数据，其中包括文件路径，文件名，所有者，所属组，权限，创建时间等，这些信息都保存在Namenode内存中。所以小文件过多，会占用Namenode服务器大量内存，影响Namenode性能和使用寿命。另一方面，MR会对每个小文件启用一个Map任务计算，非常影响计算性能。同时也影响磁盘寻址时间。
所以在配置Flume时要做3个配置，举个例子：hdfs.rollInterval=3600，hdfs.rollSize=134217728，hdfs.rollCount =0，几个参数综合作用，效果如下：
（1）文件在达到128M时会滚动生成新文件
（2）文件创建超3600秒时会滚动生成新文件
（3）第三个配置是说明每写多少个event滚动一次，如果设置为0表示禁用。

	特别说明：有些是自己的理解，仅供参考。另外，部分技术参考来自于尚硅谷大数据相关文档。

zjc4j

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录