新钛云服已累计为您分享767篇技术干货
上期回顾:
云平台运维规范-上下期目录
上期内容:
一、 运维目标
二、 基本规定
2.1 适用范围
2.2 基本定义
三、 职责
四、 云运维管理规范
4.1 运维人员基本准则
4.1.1 必须遵守的运维准则
4.1.2 运维铁律
4.2 云资源使用规范
4.2.1 VPC使用规范
4.2.2 弹性公网IP使用规范
4.2.3 NAT网关使用规范
4.2.4 资源组/标签使用规范
4.3 权限管理
4.3.1 用户岗位职责描述
4.3.2 用户权限原则
4.3.3 权限分配流程
4.4 安全管理
4.4.1 网络安全
4.4.2 运维安全加固
4.4.3 云服务器安全组访问策略
4.4.4 操作审计
下期内容:
4.5 云平台监控体系
4.5.1 监控对象
4.5.2 监控工具
4.5.3 监控内容
4.6 备份与恢复
4.6.1 数据文件备份
4.6.2 数据库备份
4.6.3 HBR备份
4.6.4 备份管理
4.7 漏洞与补丁管理
4.8 系统巡检
4.9 费用管理
4.9.1 费用预算管理
4.9.2 费用核对和审计
4.9.3 费用分配和归集
4.9.4 费用监控和预警
4.9.5 费用节约和优化
4.10 运维服务流程
4.10.1 监控事件响应流程
4.10.2 变更流程
4.5 云平台监控体系
云平台监控体系主要依托于云平台自身所提供的一套全面的云计算监控解决方案,可以帮助企业和个人对云端资源进行实时监控和管理。该监控体系由以下三个部分组成:
基础监控:云平台提供了一套全面的基础监控服务,覆盖了云计算资源的 CPU 使用率、网络流量、磁盘 I/O、负载均衡等多个指标,可以帮助用户实时了解云资源的状态,及时发现和解决问题。
应用监控:云平台还提供了一套应用监控服务,可以帮助用户对应用程序进行监控和诊断。该服务可以监控应用程序的性能、错误、日志等多个指标,并提供了丰富的分析和报告工具,帮助用户快速定位和解决问题。
业务监控:云平台还提供了一套业务监控服务,可以帮助用户对业务进行监控和管理。该服务可以监控业务的关键指标,例如用户活跃度、订单量、交易额等,同时还可以支持自定义指标和报警规则,帮助用户及时发现和解决业务问题。
总体来说,云平台的监控体系是一个非常全面和强大的监控解决方案,可以帮助用户全面了解云资源的状态,及时发现和解决问题,提高系统的稳定性和可靠性。其中基础监控是所有系统所必备的监控要求,在此之上可以根据业务系统的实际情况来考虑应用监控与业务监控的进一步拓展,故本文档将主要围绕基础监控展开。
4.5.1 监控对象
云平台监控体系的主要监控对象包括云服务器、云数据库、云存储、云网络、云安全等方面。这些对象的监控可以帮助云平台管理员及时发现潜在的问题,做出相应的处理措施,保障云平台的稳定运行。
目前云平台所涉及的监控对象主要包括但不限于:云服务器、云数据库、对象存储、云数据库MongoDB、云数据库Redis、云数据库PostgreSQL、Elasticsearch集群、负载均衡等。
4.5.2 监控工具
云平台提供了多个监控工具,以帮助用户对阿里云服务进行监控和管理,常用的监控工具包括:
云监控:可以监控云服务器、云数据库、云存储、负载均衡、函数计算、消息服务MQ、容器服务等云服务的运行状态和性能指标,并支持自定义监控指标和自定义报警规则。
日志服务:可以收集和分析云服务器、容器、Web应用程序等多个应用程序的日志,以便进行故障排查和性能分析。
云审计:可以对云账号的操作进行审计和监控,并提供实时告警和日志查询功能,以保障账号安全和合规性。
除了上述云平台所自带的监控工具意外,还可以辅助使用zabbix、prometheus等监控工具来帮助进行平台所无法实现的指标监控。
4.5.3 监控内容
云平台监控体系的监控内容包括但不限于:资源状态监控、系统性能监控、日志监控、安全监控、用户行为监控等。这些内容可以全面地反映云平台的运行状态,帮助管理员及时发现异常情况,提升云平台的安全性和稳定性。
具体监控项如下:
云服务器:
监控内容 |
监控工具 |
监控内容解释 |
触发器 |
磁盘利用率>95% |
云监控 |
磁盘利用率 |
统计粒度1分钟,连续5次满足条件则2小时告警一次 |
CPU利用率>95% |
云监控 |
CPU利用率 |
统计粒度1分钟,连续5次满足条件则2小时告警一次 |
内存利用率>95% |
云监控 |
内存利用率 |
统计粒度1分钟,连续5次满足条件则2小时告警一次 |
外网出带宽使用率>95% |
云监控 |
外网出带宽使用率 |
统计粒度1分钟,连续5次满足条件则2小时告警一次 |
CPU一分钟平均负载>5 |
云监控 |
CPU一分钟平均负载 |
统计粒度1分钟,连续5次满足条件则2小时告警一次 |
zabbix_agent 持续5分钟未采集到数据 |
Zabbix |
Zabbix agent连通性 |
统计粒度1分钟,连续5次满足条件则2小时告警一次 |
服务器发生重启 |
Zabbix |
服务器发生重启 |
统计粒度1分钟,system.uptime.change值<0即告警 |
云数据库:
监控内容 |
监控工具 |
监控内容解释 |
触发器 |
磁盘利用率>85% |
云监控 |
磁盘利用率 |
统计粒度1分钟,连续5次满足条件则2小时告警一次 |
CPU利用率>85% |
云监控 |
CPU利用率 |
统计粒度1分钟,连续5次满足条件则2小时告警一次 |
内存利用率>85% |
云监控 |
内存利用率 |
统计粒度1分钟,连续5次满足条件则2小时告警一次 |
主从延迟时间>5S |
云监控 |
主从延迟时间 |
统计粒度1分钟,连续5次满足条件则2小时告警一次 |
对象存储:
监控内容 |
监控工具 |
监控内容解释 |
触发器 |
4xx状态码>50次 |
云监控 |
4xx状态码 |
统计粒度1分钟,连续5次满足条件则2小时告警一次 |
5xx状态码>50次 |
云监控 |
5xx状态码 |
统计粒度1分钟,连续5次满足条件则2小时告警一次 |
容器服务:
监控内容 |
监控工具 |
监控内容解释 |