最近在刚好一些业务经常把线程跑满,导致服务器资源用完,所以就写了一个脚本用于Nagios下相关进程的最大线程数的监控,Unix的服务器上最大的线程数默认的是1024,当然在业务繁忙的服务器中这样肯定是不够用的,当然在实际生产环境中做初始化调优时一般都会有做过修改,如开启打开文件的最大句柄数等等,一般情况下我们都是修改/etc/security/limits.conf文件,但是要修改最大线程数就要修改/etc/security/limits.d/90-nproc.conf文件了,修改就和修改limits.conf文件文件的方式一样,在此就不做过多的解释,我一般把所有用户的最大的线程数都调大

*          soft    nproc     65535

在调整好后线程数的预警值可以根据实际情况调整,脚本实现也很简单,如下:

#!/bin/bash
#check_pstree.sh
#Used for pstree process monitoring
#writer jim
#history 2017.07.01

# Nagios 返回值
STATE_OK=0
STATE_WARNING=1
STATE_CRITICAL=2
STATE_UNKNOWN=3
#对传递进来的参数判断
if [ $# -lt 1 ];then
    echo "Please enter the process string"
    echo "ex> $0 java"
    exit $STATE_UNKNOWN
fi

if [ $# -gt 1 ]; then
        echo "The input parameters are too much"
    echo "ex> $0 java"
    exit $STATE_UNKNOWN
fi

reg_name=$1
process_pid=$(ps -ef | grep "$reg_name " | grep -v grep | awk '{print $2}')
declare -i max_process_num=$(ulimit -an | grep "max user processes" | awk '{print $5}')
declare -i warning_num=$max_process_num/2
#在此预警值取最大线程数的50%,具体可以根据实际生产环境修改
pstree_num=$(pstree -p $process_pid | wc -l)

if [ $pstree_num -le $warning_num ];then
        echo "$reg_name pstree number is:$pstree_num;warning_num is:$warning_num;max user processes is:$max_process_num,OK"
        exit $STATE_OK
else 
        echo "error!!!The number of pstree is too much.the number is:$pstree_num"
        exit $STATE_CRITICAL
fi

当然在这个脚本也可以修改后用cron任务中做定时检查,不过在Nagios中不知为何线程数的值在Nagios的监控页面下显示总有异常,不过直接执行是没有问题的。