由于服务器的增多,需对几十台服务器的资源进行监控,主要监控的点包括cpu的使用率,内存的使用率,磁盘的使用率,带宽的使用率,因为服务器都在阿里云的上面故选择使用阿里云
云监控
下的报警服务来进行资源不足的告警。
使用相关操作如下
1.从菜单栏搜索云监控进入到云监控相关的界面。
2.选择云监控页面下左边菜单栏的报警服务。
3.创建报警规则
本文主要记录报警规则的创建中的规则描述。
报警规则创建的过程中,产品、资源范围、通道沉默周期、生效时间,报警人联系组都按照字面意思进行添加即可,其中通道沉默周期我的理解是报警完第一次后多久进行第二次报警。
规则描述是对相关资源设置报警阀值。一般选用多指标,满足一个关系即可报警。设置后,可以使用监控图标预览功能进行预览。相关资源阀值如下。
- CPU
- 内存
箭头指向的两处均可作为内存的监控。
- 带宽
带宽一般只关注流出带宽,流入一般不在购买的带宽限制之内。例如4M带宽其限制的流出带宽最高为4M。
- 系统盘使用率
该处是对挂载的系统盘进行监控。
- 系统负载的监控
根据服务器核数的大小来设置具体系统负载阀值。例如单核4核系统最大的告警负载值也就是4*0.7。
关于添加规则描述的实践展示