1. 在线日志分析
1.1 日志分析常用命令
1.2 日志分析脚本
2.集群监控
1.1 监控指标
1.1.1 Load
1.1.2 CPU利用率
在Linux操作系统中,CPU的时间消耗主要在以下几个方面:用户进程、内核进程、中断处理、I/O等待、Nice时间、丢失时间、空闲等。而CPU的利用率则为这些时间所占总的百分比。通过CPU的利用率,能够客观的反映出CPU的使用和消耗情况。
可以通过top命令来查看Linux的CPU消耗情况:
top | grep Cpu
其中,CPU后面的各个列便是各种状态下CPU所消耗的时间占比
- 用户时间(us): 表示CPU执行用户进程所占用的时间,通常情况下希望us的占比越高越好。
- 系统时间(sy): 表示CPU内核所花费的时间,sy的占比较高,通常意味着系统在某些方面设计不合理,比如果频繁的系统调用导致用户态与内核态的频繁切换。
- 调整时间(ni): 表示系统在调整进程优先级的时候所花费的时间。
- 空闲时间(id): 表示系统处于空闲期,等待进程运行这个过程所占用的时间,id占比越低越好。
- 等待时间(wa): 表示CPU在等待I/O操作所花费的时间,系统不应花费大量的时间来进行等待,否则便表示可能某些地方设计不合理。
- 硬件中断处理时间(hi): 表示系统处理硬件中断所占用的时间。
- 软件中断处理时间(si): 表示系统处理硬件中断所占用的时间。
- 丢失时间(st): 是在硬件虚拟化技术开始流行后操作系统新增的一列,表示强制等待虚拟CPU时间,此时正在为另一个虚拟处理器服务。如果st占比较高,则表示当前虚拟机与该宿主上的其它虚拟机间的CPU竞争较为频繁。