Linux系统故障排除
话说软件项目的一般流程是:设计、编码、调优、上线。调优过程中经常遇到系统性能不够的时候,但是话说回来性能不好也正常,如果随便写点代码性能就牛X的一塌糊涂,可能也就不需要那么多的所谓的Best Prticace的经验总结了。
最近看到一本书《DevOps故障排除》,书很薄,里面的内容可能在其他书中都有讲解,但是他总结的很好,可能对系统的发生故障后的排除流程做了一般总结,对于我来说,可能在调优阶段分析系统瓶颈的时候有很大帮助,特此记下学习笔记。
首先我们知道服务器的主要资源包括:
- CPU
- RAM
- 磁盘IO
- 网络
系统出了问题怎么办呢,我想重启可能会解决,但是这就可能失去了让你成为高手的机会。如果可以的话,登录系统上,应该有一些工具可以排查出到底是谁在搞飞机(为什么是应该,因为过去我也不了解,但是马上就会知道了)
1 系统负载
通常第一条命令是uptime: