曾经我很讨厌那些运维一见到CPU使用率100%的时候就大叫狂跳的样子,我还曾经说过,如果CPU不是拿来用的,难道是用来闲置的吗。
好像我说的话挺有道理。但是,我错了…
不过这也并不意味着运维是对的,CPU出现100%后他们大叫狂跳大多数是觉得自己摊上事了,而并不是基于责任感为了发现并解决问题(这一点请相信我)。不然为什么他们总是把事情丢给研发而不是自己尝试去check一下呢?
基于中央处理器的现代计算机是一个典型的M/M/1排队系统,CPU就是服务台。而pending的任务就是排队实体。
我起初认为,CPU使用率达到了100%正是表现了CPU正在被充分利用,然而我却忽略了接下来可能发生的情况,接下来的局面非常危险。既然作为一个典型的排队系统,任务到达就符合典型的泊松分布,而任务的排队时间则符合指数分布,这是必须学了排队论以后才知道的。
CPU使用率100%意味着在泊松分布下的任务还在按照该概率分布持续到达,如果CPU不出让一些空闲时间,在指数分布下就意味着新到达的任务排队时间将会达到无穷大,最终导致存储器溢出。因此,按照指数分布的排队时间的约束,CPU使用率100%只能维持一段很短的时间,如果CPU持续100%,则必然导致大量的任务hang住得不到响应,这正是DDoS攻击者想要达到的效果。
这里就不摆公式了,总之,CPU持续100%十有八九会出问题的,不然的话按照任务到达率泊松分布是说不通的。
2017年,再见!