-
List item
今日中秋假期第一天,为了过个安稳的假期,把各个系统都巡检了一遍,在此给家人们分享几个日常巡检及故障排查过程中常用的小技巧及命令工具(主要分享linux、DB)等。
一.服务器硬件巡检3剑客
这是我自认为的最常用的3个/组命令:
1.查看服务器整体性能及实时负荷-top
技巧:输入top后连续敲2个M键可以显示内存使用百分比,top -d 数字可以设置刷新时间,比如每个5s刷新: top -d 5
2.查看内存详细使用情况:free /free -h/free -m
3.查看磁盘使用空间大小及文件占用情况的:df -h;du -sh;du -sm等
二.查看各种日志是否有报错或者告警的技巧:
grep/egrep杀手锏出场,快速定位问题
1.查看linux系统日志(RH linux为例)有没有error:
egrep -i error /var/log/messages
2.查看DB alert.log是否有报错:
egrep ORA-
cd /oracle/app/oracle/diag/rdbms/mcstest/mcstest/trace
ls -al *log
egrep ORA- alert_mcstest.log
egrep ORA- alert_mcstest.log |grep 2024-09-15
或者用tail命令:如tail -n 5000 alert_mcstest.log | grep ORA-或者匹配日期
tail -n 5000 alert_mcstest.log | grep 2024-09-15
同样的技巧可用于查看ASM/网络等日志,以提高巡检和问题定位效率,需要注意的是,grep匹配的关键词需要大家平时积累,如系统的有error,alarm,warning,fetal,bug,DB/ASM/网络/RAC常用的有ORA-,timeout等。
三.find和du
很多时候我们需要用到排查磁盘大小和哪些文件占用空间大小的排查,这时候find和du就很有效率:
1.查看某多文件下目录各个文件的大小情况并排序:
du -sh ./* |sort -nr | grep M
du -sh ./* |sort -nr | grep M |hed -n 5:查看前5,适用于文件很多
find ./ -type f -name ‘.trc’ -size +1 -mtime +3:
查找当前路径目录下的类型为文件,名称以.trc结尾,大小大于1m,并且修改时间是3天前的文件:
find ./ -type f -name '.trc’ -size +1 -mtime +3 | xargs rm -f:
查找当前路径目录下的类型为文件,名称以.trc结尾,大小大于1m,并且修改时间是3天前的文件删除之:
还有些小技巧:ls -alht ./ |grep M:查看当前路径下以M大小的文件详细信息
当然以上技巧也可以写脚本进行自动化巡检和运维,对于很大的日志文件也可以利用工具(FTP)下载到本地利用一些编辑工具(notepad等)进行排错查找。
好了,今天就分享到这,后续会继续。
码字不易,宝贵经验分享不易,请各位支持原创,转载注明出处,多多关注作者,后续不定期分享DB核心知识和排障案例及经验、性能调优等。