事情原由
近来kafka总是时不时的出问题,出现的问题 : open too many files。我们限定的文件数已经是3W多了,一般都是维持在3K这样。然后就是原因找不到,不太清楚是kafka的bug还是磁盘或者网络的原因,现象如下。
所以没办法,就搞个脚本,时不时去探测下kafka进程的打开文件数,如果文件数大于某个值,就重启该节点的broker节点。
脚本编写
1.查看kafka broker的pid
ps -ef | grep kafka | grep properties | grep -v grep | grep -v MIRROR |awk '{print $2}'
2.根据pid,来查看打开的文件数
lsof -p pid | wc -l
lsof如果没有安装,那么可以:yum install lsof -y 安装lsof服务
3.根据CDH 装备的重启的URL,重启某个节点的broker服务
curl -u admin:admin -X POST -H "Content-Type: application/json" -d '{"items":["kafka-KAFKA_BROKER-de5cf93fa0d5e8a7c05f265f86acc609"]}' "http://node1:7180/api/v19/clusters/cluster/services/kafka/roleCommands/restart"
如果不加 -d '{"items":["kafka-KAFKA_BROKER-de5cf93fa0d5e8a7c05f265f86acc609"]}' ,那么会重启整个kafka服务。
而整个是从哪里来的?/api/v19/hosts 这个url去查所有的hostid。然后/api/v19/clusters/cluster/services/kafka/roles 这个url
有kafka下面所有host下的所有服务,kafka-KAFKA_BROKER-de5cf93fa0d5e8a7c05f265f86acc609就是在这里查到的。下面是截图
如果查出来的该节点的开打文件数,大于某个值,就通过访问url,来重启某个节点的broker。下面是完整脚本
#!/bin/bash
current1=`date "+%Y-%m-%d %H:%M:%S"`
echo $current1
kafkapid=`ps -ef | grep kafka | grep properties | grep -v grep | grep -v MIRROR |awk '{print $2}'`
if [[ $kafkapid == '' ]]; then
echo "kafkapid not run"
exit 1
fi
echo "kafka pid is $kafkapid"
kafkafiles=`/usr/sbin/lsof -p $kafkapid | wc -l`
echo "kafka files is $kafkafiles"
if [[ $kafkafiles -gt 50000 ]]; then
echo "kafka files > 50000 , start restart the broker"
curl -u admin:admin -X POST -H "Content-Type: application/json" -d '{"items":["kafka-KAFKA_BROKER-de5cf93fa0d5e8a7c05f265f86acc609"]}' "http://node1:7180/api/v19/clusters/cluster/services/kafka/roleCommands/restart"
fi
current2=`date "+%Y-%m-%d %H:%M:%S"`
echo $current2
echo "======================================================================"
扩展点
1.上面脚本中 lsof -p pid |wc -l 被我换成了/usr/sbin/lsof -p pid | wc -l 因为在crontab中,使用lsof是不会有数据的,所以查出来打开的文件数一直是0。。天坑。。。
2.CDH API还提供了许多类似的URL,集体的,可以看
点击这个,里面有很多URL,同时,官方也提供了不少例子,供我们查看
https://cloudera.github.io/cm_api/apidocs/v19/tutorial.html
3.CDH中,如果要修改某个服务,能打开的最大文件数(默认是32768,可以查看/etc/security/limits.d/cloudera-scm.conf 这个文件),直接修改主机上的最大文件数是不可以的,通过cat /proc/pid/limits 可以发现这个服务的最大打开文件数没有变化。可以直接在页面上修改,譬如,我要修改kafka broker的 最大打开文件数
直接填这个值就行,原来是空的,填完后重启即可。