zabbix结合shell实现自动发现占用内存最大top10进程并监控其资源

最新推荐文章于 2024-02-23 09:30:00 发布

weixin_33813128

最新推荐文章于 2024-02-23 09:30:00 发布

阅读量430

点赞数

文章标签：运维 shell java

原文链接：http://blog.51cto.com/xiumin/1870209

版权

最近发现服务器cpu、内存莫名的增高，可能还有一些是没用的进程，却占用着相当大的资源。直接ssh到服务器上看信息也不方便，所以就想着在zabbix监控端实现对这五花八门进程资源占用监控。

为了解决这个问题，最近在想通过zabbix的自动发现功能能不能实现自动发现占用服务器内存最大的N个进程，然后对这些进程占用内存和CPU的资源情况进行监控获取数据呢？于是就有了本篇文章的诞生。

首先，我们需要获取到top命令结果，可以使用下面的命令将top命令获取的结果重定向到一个文件中去：

top -b -n 1 >/tmp/top.txt

其中该命令的意思是执行一次top命令并将结果重定向到top.txt文件中去

将该命令添加到zabbix用户的计划任务中去，每分钟执行一次，命令如下:

crontab -e
*/1 * * * * top -b -n 1 >/tmp/top.txt

放进去之后在tmp目录下会生成一个top.txt文件

[root@bogon ~]# head -10 /tmp/top.txt
top - 14:26:01 up 5 days,  5:16,  2 users,  load average: 0.09, 0.04, 0.07
Tasks: 146 total,   3 running, 143 sleeping,   0 stopped,   0 zombie
%Cpu(s):  0.4 us,  0.3 sy,  0.0 ni, 99.3 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem :  8011216 total,   184064 free,  7464604 used,   362548 buff/cache
KiB Swap:  8257532 total,  2165112 free,  6092420 used.   299632 avail Mem 

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
 6566 root      20   0 6089568 1.585g   3716 S   6.2 20.8  22:15.21 java
19307 root      20   0  146016   1900   1376 R   6.2  0.0   0:00.01 top
    1 root      20   0   44704   4968   2372 S   0.0  0.1   0:30.15 systemd

好了，获取到了数据后，就需要对数据进行处理了，下面是两个脚本，一个是为了获取占用内存资源最高的进程名，另一个是获取某进程占用内存和cpu资源的信息。先来看第一个脚本：

[root@bogon ~]# cat /home/scripts/check_process.sh 
#!/bin/bash
TABLESPACE=`tail -n +8 /tmp/top.txt|awk '{a[$NF]+=$6}END{for(k in a)print a[k]/1024,k}'|sort -gr|head -10|cut -d" " -f2`
COUNT=`echo "$TABLESPACE" |wc -l`
INDEX=0
echo '{"data":['
echo "$TABLESPACE" | while read LINE; do
    echo -n '{"{#TABLENAME}":"'$LINE'"}'
    INDEX=`expr $INDEX + 1`
    if [ $INDEX -lt $COUNT ]; then
        echo ','
    fi
done
echo ']}'

其中最关键的是`tail -n +8 /tmp/top.txt|awk '{a[$NF]+=$6}END{for(k in a)printa[k]/1024,k}'|sort -gr|head -10|cut -d" " -f2`这条命令：这条命令的意思是从top.txt文件中取出从第八行到末尾行的数据，然后使用awk对这些数据进行累加，效果是以最后一列为关键字，每个关键字对应的第6列的数值进行累加，输出第六列数据的累加结果和最后一列数据，然后使用sort进行排序，注意这里的参数是使用-gr而不是使用-nr是因为获取到的第六列的值是以KB为单位的，假如某进程占用内存大于10G的话，将会使用科学记数法计数，sort -nr参数无法对科学记数法进行计数，需要将参数改成-gr才行，其中的-r是进行反向排序，同时为了防止zabbix获取到该值是科学记数法获取的值从而无法识别，先将该值/1024将单位变成MB，当zabbix获取到数据后再*1024*1024将该值还原成BYTE单位。head -10是取出占用内存最大的十个进程，然后使用cut对数据进行切分，获得十个进程的进程名。至于下面的代码是将获取到的十个进程名进行json格式化的输出，输出结果如下：

$ sh ./scripts/check_process.sh 
{"data":[
{"{#TABLENAME}":"java"},
{"{#TABLENAME}":"docker"},
{"{#TABLENAME}":"nginx"},
{"{#TABLENAME}":"sshd"},
{"{#TABLENAME}":"tuned"},
{"{#TABLENAME}":"NetworkMa+"},
{"{#TABLENAME}":"zabbix_ag+"},
{"{#TABLENAME}":"systemd-j+"},
{"{#TABLENAME}":"crond"},
{"{#TABLENAME}":"rsyslogd"}]}

至于为啥要进行json格式化前面博客已经阐述过了，因为zabbix自动发现获取的值格式就是json格式化的值才能被识别到。

第二个脚本的作用就是获取某个进程占用的cpu和内存资源情况，脚本内容如下：

[root@bogon ~]# cat /home/scripts/processmonitor.sh 
#!/bin/bash
process=$1
name=$2
case $2 in
mem)
echo "`tail -n +8 /tmp/top.txt|awk '{a[$NF]+=$6}END{for(k in a)print a[k]/1024,k}'|grep "$process"|cut -d" " -f1`"
;;
cpu)
echo "`tail -n +8 /tmp/top.txt|awk '{a[$NF]+=$9}END{for(k in a)print a[k],k}'|grep "$process"|cut -d" " -f1`"
;;
*)
echo "Error input:"
;;
esac
exit 0

该脚本的核心和上一个脚本的很相似，相信读者理解了上面的脚本在理解下面的脚本也是轻轻松松的啦。下面看该脚本执行的结果：

$ sh ./scripts/processmonitor.sh java mem
13115.5
$ sh ./scripts/processmonitor.sh java cpu
17.7

能获取到值了之后就需要在zabbix_agentd.conf里面配置相应的键值来获取数据了，下面是需要添加的配置：

$ tail -3 ./etc/zabbix_agentd.conf
#top_process
UserParameter=process.discovery,/home/scripts/check_process.sh
UserParameter=process.resource[*],/home/scripts/processmonitor.sh $1 $2

添加该配置之后需要重启zabbix_agentd才能使配置生效，重启需要使用pkill zabbix && zabbix-3.0.5/sbin/zabbix_agentd

好了，这样，客户端这边就已经配置成功了，下面需要在服务端验证是否能够获取到数据了，在服务端使用zabbix_get命令来获取数据，下面是执行的结果：

$ zabbix/bin/zabbix_get -s xxx.xxx.xxx.xxx -k"process.discovery"
{"data":[
{"{#TABLENAME}":"java"},
{"{#TABLENAME}":"docker"},
{"{#TABLENAME}":"nginx"},
{"{#TABLENAME}":"sshd"},
{"{#TABLENAME}":"tuned"},
{"{#TABLENAME}":"NetworkMa+"},
{"{#TABLENAME}":"zabbix_ag+"},
{"{#TABLENAME}":"systemd-j+"},
{"{#TABLENAME}":"rsyslogd"},
{"{#TABLENAME}":"bash"}]}

上面的xxx.xxx.xxx.xxx代表的是客户端的IP地址，-k后面的参数就是刚刚我们在客户端上面添加的参数。

$ zabbix/bin/zabbix_get -s xxx.xxx.xxx.xxx -k"process.resource[java,mem]"
13115.6
$ zabbix/bin/zabbix_get -s xxx.xxx.xxx.xxx -k"process.resource[java,cpu]"
0

好了，在服务端测试客户端没有问题，能够获取到数据了。接下来就需要在web端配置模板了。

在组态---》模板---》创建模板里面创建一个模板，叫做temple top_process如下图所示：

Fr2i2y.jpg%21web

创建一个应用集叫做top of process resource，如下图所示：

f6Vbqq.jpg%21web

创建好后，需要添加探索规则了，这是我们的重头戏。新建探索规则，如下图所示：

jYnQbq.jpg%21web

其中的键值就是我们在客户端上面配置的键值，数据更新间隔我这里设置为5分钟，就是说每间隔5分钟它就会去客户端获取占用内存最大的十个进程，然后取它们的内存和cpu占用资源数据。下面就需要配置项目原型了，如下图所示：

3uQfQvn.jpg%21web

如上图所示，{#TABLENAME}获取的就是十个进程名的列表，process.resource[{#TABLENAME},mem]就是我们在客户端配置的键值，其中获取的内存数值单位是MB，这里将它转换成BYTE单位，所以将获取到的数值*1024*1024=1048576，单位改成Byte，将该项目应用到top of process resourceying应用集上。这样，一个项目原型就做成功了。下面是cpu占用资源的项目原型配置：

QzEFb2M.jpg%21web

添加完项目原型后需要配置图形原型，如下图所示：

uEVFBn.jpg%21web

添加好图形原形后，改模版就制作成功了，接下来将该模板添加到主机上，就能够获取到数据了，这里因为我设置的自动发现时间间隔是5分钟，所以需要等待五分钟以上才会出现图形，下面是出现的图形效果。

6nyuQzz.jpg%21web

这就是获取到的十个占用内存最大的进程的占用资源图形，下面是详细效果。

qM3ye2m.jpg%21web

这是刚获取到的数据，至此，通过自动发现获取top10进程占用资源的监控结束，这只是本人匆忙之中写出的一个监控方式，拿出来给大家作参考，如果有更好的方式，可以和我共同探讨，大家共同进步，zabbix模板我将会放在附件中供大家下载。

转载于:https://blog.51cto.com/xiumin/1870209

weixin_33813128

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
zabbix结合shell实现自动发现占用内存最大top10进程并监控其资源

最近发现服务器cpu、内存莫名的增高，可能还有一些是没用的进程，却占用着相当大的资源。直接ssh到服务器上看信息也不方便，所以就想着在zabbix监控端实现对这五花八门进程资源占用监控。为了解决这个问题，最近在想通过zabbix的自动发现功能能不能实现自动发现占用服务器内存最大的N个进程，然后对这些进程占用内存和CPU的资源情况进行监控获取数据呢？于是就有了本篇文章的诞生。首...
复制链接

扫一扫