云原生时代下,企业运维面临架构复杂化、业务需求多样化和运维数据海量等挑战,如何能够实现精准告警、异常智能诊断、根因定位、异常预测和异常自动修复,已成为企业数字化转型的急迫需求。
9月26日,阿里巴巴高级技术专家滕圣波在《GOPS全球运维大会》上发表了题为《云上服务器无人值守与自助服务实战》的主题演讲,
分享了阿里云弹性计算团队如何利用人工智能技术赋能运维自动化,实现云上服务器无人值守,
帮助用户降低云服务器实例管理的复杂性,来保障实例服务的稳定和高效运行。
本文根据滕圣波的演讲整理。
关注百晓生,笑谈云计算
图:阿里巴巴高级技术专家滕圣波
01 为什么需要无人值守 运维是一种服务,既包含基础设施软件服务、也包含人力服务,服务的对象是企业中使用基础设施的业务团队,而云计算IaaS是一种运维服务,服务的对象已发展为使用云服务的开发人员和运维团队。随着云计算的广泛落地,大部分企业开始上云,当前就有100万多家用户的业务运行在阿里云平台上,阿里云平台服务的用户也越来越多。 随着平台用户规模的扩大,我们发现 平台用户在ECS实例运维时普遍面临三个痛点:- 背景沟通成本高,为什么我的实例出问题了?
- 人工处理需要较长的时间,为什么这个问题这么久还没有解决?
- 客户操作不透明,问题看起来修复了,可是刚刚你做了什么?
实例无法远程访问
实例无法启动/停止
实例性能异常
磁盘扩容未生效
关注百晓生,笑谈云计算