自定义的云中监控预警体系初探

1.概述

  有人说,云计算拼的就是运维能力。随着云平台规模的不断扩大,运维的难度也呈直线上升,云平台的监控预警系统变得越来越重要。

  提到监控预警系统,很多人的第一反应就是:可通过各种图表查看各个监控项的状态;可对监控项设置警报,达到一定阀值时告警,能通过邮件、短信等方式通知到管理员,等等。

  这些确实是大多数监控系统的基本功能,但对于传统的监控系统,更倾向于发现问题,通知管理员处理。在云计算的时代,监控能否做得更多呢?下面我将为大家介绍一下品高云的监控系统。

  品高云作为一个自主研发的,遵循亚马逊接口标准的云平台,其监控系统也不例外。品高云的监控系统,即云监控服务,在兼容亚马逊CloudWatch接口的基础上,作了大量的优化与扩展,方便管理员和用户的使用。

2.自定义的云监控系统

  作为监控系统,首先要确定监控的内容,即监控指标。每一种云资源都会有内置的一些监控指标,如实例的CPU使用率、网络I/O;存储卷的磁盘I/O,读写操作数,等等。管理员可查看、管理云平台的各项监控指标。
  
图1
(图: 监控设置)

  如果云平台内置监控指标不能满足需求,怎么办呢?没关系,我们支持自定义监控指标。只需要按要求撰写好数据采集脚本、新建监控指标即可。

  下面以监控MySQL连接数为例,展示如何在品高云监控服务自定义指标:

1.撰写数据采集脚本,并由管理员上传到云平台指定目录:
图2
(图: 脚本)

2.新建监控指标,填写相关参数:
图3
(图: 新建指标)

  数据采集脚本是在哪里运行的呢?这与监控指标的设置有关。监控指标的收集方式包括ec2config和controller

ec2config是内置在云平台镜像里面的一个程序,可与云平台交互,实现更多的功能。收集方式选择ec2config,即是由该程序在实例内部运行采集脚本,并通过特定的URL汇报到云平台。

controller,即由云平台物理机运行采集脚本。

  自定义监控指标默认都通过ec2config采集数据。

  定义好监控指标,云平台便会根据设定定时去收集、汇总数据。我们可以到各个资源的详情页面,查看该资源相关指标的监控数据。

图4
(图: 监控图表)

  有监控数据只是第一步,我们要如何利用这些数据去完成更多的操作呢?答案就是:监控警报。

  对于亚马逊CloudWatch,一个监控警报只对应一个云资源的一个监控指标;如果想监控100个实例的CPU使用率,必须重复建100遍。

  品高云对此作出改进,将监控警报拆分为警报定义跟监控项。警报定义包括警报类型、触发条件、触发操作等通用定义,与具体云资源无关。

图5
(图:新建警报)

  如果警报类型选择的是任意实例、任意主机,则无需其他操作,警报自动对所有实例、主机(包括后续新建的)生效。

  如果不是针对任意资源的警报,则还需要创建监控项,选择具体需要监控的资源,绑定到相关的警报。

图6
(图: 新建监控项)

  新建监控项时,还可以定义触发操作。要注意的是:定义在监控警报的操作是通用的触发操作,所有绑定到该警报的资源都会触发;定义在监控项的操作则只对该监控项对应的资源生效。

  监控警报能触发的操作,目前主要包括三种:

  1.平台消息: 警报触发后,往云平台发送消息,用户登录时可以看到。
图7
(图:平台消息)

  2.发送SNS主题: SNS即云平台的另一个服务:简单通知服务。用法是:根据需要创建一个SNS消息主题,当监控警报触发时,将向该主题发布消息。

  一个SNS消息主题可以添加多个消息订阅。订阅方式可以是Email、Email-JSON或HTTP。当有人向消息主题发布消息时,所有已确认的订阅者都能收到消息。

  如果是Email、Email-JSON的订阅者,将收到邮件通知;如果是HTTP订阅者,将收到POST请求(消息内容为JSON格式),用户可根据需要作进一步的处理。
图8
(图:SNS订阅)

  3.触发弹性策略: 弹性策略与云平台另一个服务:弹性伸缩服务有关。

  弹性伸缩服务可以让用户创建弹性组,通过指定启动配置(包括使用的镜像,网络,是否使用负载均衡),最小、最大及当前需要的实例个数等来创建一组云资源。

  服务本身会对实例进行健康检查,确保健康的实例数量达到设置的需要值; 通过定义弹性策略加、减实例,再与云监控服务结合,达到通过监控数据的变化动态改为需要实例个数的目的。
图9
(图:弹性策略)

  一个较为经典的应用场景是: 以弹性组的方式部署一批WEB服务器,通过负载均衡对外提供服务。

  对弹性组实例的平均网络连接数建立两个警报:

  当并发连接数达到一个较高值时,触发添加实例的弹性策略增强处理能力;当并发连接数下降到一个较低值时,触发减少实例的弹性策略以节约资源,从而实现自动根据负载情况自动伸缩资源。

  上述功能所有云平台用户都能使用。除此之外,品高云还有大量方便云平台管理员运维使用的功能:

  监控TOP:可以根据不同的监控指标,查看最近一段时间哪些资源该项指标最高,从而协助快速定位、排查问题;
图10
(图:监控top)

  云平台监控:针对云平台各项资源使用率的监控,可根据使用率及其历史数据的走势,评估云平台是否需要扩容,要扩多大;
图11
(图:云平台监控)

  服务状态监控:针对云平台各项服务的健康状态的监控,可结合监控警报,在服务出现异常时第一时间通知管理员;
图12
(图:服务状态监控)

  资源监控:从计算、存储、网络三个层面监控资源使用情况。

图13
(图: 资源监控)

  平台综合评分: 从健康、风险、效率三个维度对云平台资源使用情况进行评分,并可查看各物理主机的资源使用率、资源富裕、不足的物理主机。
图14
(图:平台综合评分)

图15
(图:主机资源使用率)

  报表模块: 通过用户、服务、服务组、标签、软件使用情况等维度,了解云平台资源的使用情况,并可导出报表,方便运维人员的工作汇报。
图16
(图:用户报表)

3.下一步的优化改进计划

  品高云监控服务现有的功能就介绍到这里。后续还会不断地优化改进监控服务,计划中的功能包括:

  • 通过同一个入口快速查看不同资源的不同的监控指标的监控图表,可以在同一张图表横向对比多个指标的;

  • 提供更多的监控维度,如云平台事件,资源状态变化,等等;

  • 提供更多的触发操作,如存储卷扩容、更改网络带宽、迁移实例等等,让云平台更加自动、智能,减少运维压力。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值