问题描述
大数据集群服务器收到告警cup使用率超过了90%
分析过程
通过top命令进行查看,发现是flume占用了很高的cup,随即使用jstack定位到是org.apache.flume.sink.kafka.process()的问题,看这个进程名,猜想是不是flume本身的bug,通过查询,果然原来1.6版本flume的问题,但是这个已经在1.7版本里面解决了,具体可参考
https://github.com/apache/flume/blob/trunk/flume-ng-sinks/flume-ng-kafka-sink/src/main/java/org/apache/flume/sink/kafka/KafkaSink.java
解决方法
使用上面链接的代码编译后替换掉flume-ng-kafka-sink-1.6.0.jar中的KafkaSink.class,然后重启Flume Agent,问题解决!
备注
上面的问题解决后,cup降低了很多,但有flume时候还是会比较吃cup,通过分析,是因为flume的channel缓存大小设置不合理导致,进一步对flume进行了参数优化如下:
flume.conf配置文件 中
我把所有 *.capacity=的参数减少了一个数量级
同时调小agent.channels.metrics_memory_channel.transactionCapacity参数,这个参数默认是100,它控制的是收集端的sink在收集到了多少条以后再去提交事务,但是需要注意的是transactionCapacity参数不能小于sink的batchsize。
通过上述优化后,flume占用cpu进一步降低!