记一次问题排查过程,希望对他人有借鉴作用,不喜请喷。
- 一、基本现象
- Nodemanager进程挂掉
2、yarn日志
进入系统查看yarn日志
#cd /var/log/hadoop-yarn/yarn
#less yarn-yarn-nodemanager-so81.novalocal.log
发现没有异常错误信息
3、系统负载
通过top 命令结合c M 查看使用cpu最高的进程
发现当前系统负载已经满了,占用资源最多的是
/var/tmp/java -c /var/tmp/w.conf
- 二、问题排查
1、进程排查
网上查找进程信息
病毒程序脚本
发现该进程是一个矿机病毒。
2、检查程序
发现可疑程序包
- 三、问题处理
1、删除进程、程序包
查看进程ip
#kill -9 pid
删除程序包
2、重新检查程序
发现病毒程序又重新运行
可见单单删除程序、删除进程是不起作用的,要解决程序的来源
查看相关的服务
#ps –ef | grep /var/tmp
发现有一个wget 下载病毒的进程。
3、定时任务排查
当发现程序删除会重新下载时就联想到病毒脚本会写定时任务去下载病毒程序
查看root的定时任务
通过排查这两个定时任务是正常的任务
我们发现进程的拥有者是yarn
切换yarn用户查看
确定在yarn用户存在定时下载病毒程序的定时任务
4、整体判定
至此整个劫持事情的来龙去脉已基本清晰
病毒程序在互联网上通过端口漏洞扫描,扫描出有漏洞主机
5、再处理
1)关闭不需要端口
关闭云服务器中下行规则中不需要开放的端口
上行规则做为内部访问原则可以宽松这里设置为全开放
2)删除进程、程序包
查看进程ip
#kill -9 pid
删除程序包
#cd /var/tmp
#rm -rf java
3)删除下载来源
在yarn用户下把crontab 内容注释
#cd /var/spool/cron
删除定时下载任务
#rm -rf yarn
6、安全防范
1)升级openssl openssh
#yum install openssl openssh -y
2)关闭不需要的服务
#systcm stop postfix
- 四、问题总结
- 不使用的端口就不需要开放在外网上。
- 关闭非必要程序
- 加强网络安全意义
相关连接