运维 2.0 时代
运维 2.0 是指,从技术运维升级为服务运维,向公司提供可依赖的专业服务。运维 2.0 强调服务交付能力,而不是技术能力,需求可依赖、懂业务、服务化的专业运维。
为了了解运维 2.0 时代的监控方式,我们不妨从以前的监控手段说起。首先来了解一下 Zabbix ,通过 Zabbix 能够监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让系统管理员快速定位和解决存在的各种问题。但时代在推进,如今 Zabbix 的功能真的就能满足广大开发者们么?
如果你是阿里云的用户,或者使用过 Zabbix,你将明显感受到一个痛点:没有办法对数据做聚合,只能挨个查看主机的性能指标,更不用说有管理的功能了。
如上图,Zabbix 只提供单台 Host 的 Disk 使用量。如果 3 台主机,同属于一个组 Mi-Kafka,就没法知道这个组总体 Disk 使用量了。
因此,就算线上系统发生了故障,要在短期内知道,到底是哪个模块的哪个部分出了什么样的问题,所需要的经验和时长都是巨大的。
而 OpenTSDB 和 StatsD 的出现改变了现状。
OpenTSDB 是什么呢,一个开源监控系统,可以从大规模的集群(包括集群中的网络设备、操作系统、应用程序)中获取相应的 Metrics 同时进行存储、索引以及服务,从而使得这些数据更容易让人理解。
集群监控
如今越来越多的企业开始使用混合云模式