先定一个运维小目标，比方监控它10000台主机

最新推荐文章于 2022-10-18 11:26:25 发布

uyunops2016

最新推荐文章于 2022-10-18 11:26:25 发布

阅读量1.5k

点赞数

分类专栏： monitor大规模云监控文章标签： Monitor it运维底层监控服务器监控

本文链接：https://blog.csdn.net/uyunops2016/article/details/53128028

版权

随着数据中心规模的迅速增长，运维面临监控大量主机的难题。本文分析了四大挑战：监控配置自动化、监控数据传输、资源集中化监控和大规模数据可视化，并提出解决方案，如采用自动化代理、中间层数据传输、开放接口集成及大数据可视化技术。优云monitor等新一代监控产品，旨在帮助实现大规模运维的高效管理。

摘要由CSDN通过智能技术生成

“想做世界最好是对的，但是最好先定一个能达到的小目标，比方说我先挣它一个亿。”，王首富云淡风轻地给各行各业提供了一个很好的Roadmap，包括我们运维。的确，如今数据中心的规模增长速度也已像一匹脱缰的野马，各地都频频建设起超大型数据中心。按工信部的定义，超大型是指规模大于等于一万个标准机架的数据中心，考虑到虚拟化技术的使用，实际上需要运维的主机规模很容易超过十万的级别。所以，首富说的目标离我们也不远，也许很快就可以达到。

而如此大规模的数据，其运维的难度可想而知，我们来逐个分析应对看看：

挑战一：如何把监控配置等运维工作降低到零？

通常情况下，每一个主机或虚拟机的点亮，运维人员都需要为新主机完成配套的运维工作，包括系统部署、IP地址分配、应用部署与监控配置等等。尤其在使用虚拟机技术的数据中心，据调查，目前虚拟机的平均生存时间只有15天，因此其配套的运维工作变得更加繁重。将这些例行的配套工作自动化，可以有效降低运维工作。

在这个问题域中，我们设想有这样一种代理程序，它易于安装、启动后可自动采集本机信息上报、同时开始监控各项重要的指标。那么我们就很容易，将代理程序作为主机系统部署的一部份，同时预置到虚拟机镜像中，那么每点亮一个主机，在监控中心就可以立即发现与监控它，这能有效消除监控配置运维工作。

这样后续新增主机的流程如下，需要运维工作投入仅仅在开机部份，其余过程可全部自动化：

挑战二：如何设计监控数据传输网络，低成本支持海量数据？