SSRE:Google运维解密(笔记)2 监控与告警 1、什么是监控? 2、为什么要监控? 3、4个黄金指标 4、长尾问题 5、设计监控需要简化 6、告警误报 1、什么是监控? 2、为什么要监控? 最初我对监控的目的想的比较简单,以为只是监控有没有问题,有问题就发告警。 3、4个黄金指标 后来我了解的稍微多点,就知道,“有没有问题”这个几个字说的太轻飘飘了。 怎么才算有问题,服务挂掉,或者机器挂掉?还是某个cpu,mum满了? 报警的策略下面会说,但是关于指标,本书描述的很清楚。 4、长尾问题 关于长尾问题,最近有接触一点点。