智能自动化:使用亚马逊云科技原生服务实现端到端AIOps
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, DevOps Guru, Cloud Operations Automation, Ai-Powered Observability, Anomaly Detection Metrics, Application Security Scanning, Proactive Issue Resolution]
导读
人工智能在IT运维(AIOps)中已变得至关重要。本闪电演讲探讨了客户如何利用亚马逊云科技原生服务来实现全面的AIOps能力,涵盖从可观察性和事件管理到预测分析和自动修复。了解亚马逊云科技服务如何赋能IT团队主动监控、检测异常并快速解决问题。真实客户案例展示了服务集成以实现凝聚力强的AIOps,以及亚马逊云科技合作伙伴如何利用专业知识和解决方案加速器来指导客户实施端到端AIOps工作流程。加入我们,学习如何利用亚马逊云科技服务和合作伙伴实现智能自动化并提升IT运维水平。本演讲面向亚马逊云科技合作伙伴。
演讲精华
以下是小编为您整理的本次演讲的精华。
在2024年亚马逊云科技 re:Invent活动上,美洲地区云运营和安全合作伙伴发展专家Frank Schwarza以及云运营合作伙伴解决方案架构师Gabriel Costa进行了一场题为“智能自动化:利用亚马逊云科技原生服务实现端到端AIOps”的精彩演讲。该演讲深入探讨了亚马逊云科技对AI运营(AIOps)的愿景,以及他们在云运营技术栈中现有的AI驱动能力。
Schwarza首先强调了亚马逊云科技进行的一项调查结果,显示开发人员每天大约有70%的时间花在了重复和单调的任务上,如修复bug或控制管理,只有30%的时间用于创新性的问题解决、创新和设计。这一统计数据凸显了亚马逊云科技通过将AI和自动化整合到云运营中,从而减少工程师单调任务的雄心。
Schwarza阐明了ML Ops(机器学习运营)和AIOps之间的区别。ML Ops侧重于优化机器学习模型和改进数据输入,而AIOps则是利用ML或AI来管理整个环境,提高运营质量,简化开发人员的管理工作。这种对AIOps的整体性方法使其与更专门的ML Ops有所区别。
Schwarza介绍了亚马逊云科技云运营的五大支柱:治理、云财务管理、监控、合规性和运营管理(ITSM集成)。他强调亚马逊云科技旨在让客户拥有一个覆盖所有五个领域的集成运营模型,避免在某一领域过度采购而忽视其他领域。这种全面的方法确保了平衡和高效的云运营策略。
随后Gabriel Costa上台,深入探讨了亚马逊云科技云运营技术栈中现有的AI Ops能力。他强调了在服务如Compute Optimizer中使用机器学习,根据历史指标为EC2实例、RDS数据库和Lambda函数提供正确的大小调整建议。这种优化不仅提高了性能,还通过确保资源合理调配来降低成本。
Costa展示了CloudTrail Lake和CloudWatch中基于AI的自然语言生成能力,允许用户使用自然语言提出问题,而无需理解复杂的查询语言或日志结构。这一功能简化了从遥测数据中提取见解的过程,使其更加易于广泛用户使用。
他还讨论了将Amazon Q(一种机器学习服务)与CloudFormation和Systems Manager集成的情况。这种集成为部署问题和托管节点查询提供了根本原因分析和补救建议,使用户能够快速识别和解决运营挑战。
认识到现代云原生、分布式应用程序环境的复杂性,Costa强调了AIOps在管理大量需要关联和分析以识别根本原因和预防问题的遥测数据(包括指标、日志和跟踪)方面的重要性。他介绍了在亚马逊云科技中使用AIOps进行监控的框架,涵盖应用程序检测、数据收集(指标、日志、跟踪)、警报设置、仪表板创建和自动化票证系统。
Costa强调了AI在增强可观察性方面的作用,包括CloudWatch中的异常检测。该功能使用机器学习算法识别指标模式中的异常,并自动调整警报阈值,从而减少警报疲劳和误报。他举例说明,有合作伙伴实施了这一功能,报告的事件减少了15%到40%。
CodeGuru Security被介绍为一种强大的工具,可扫描自定义应用程序代码和基础设施代码,发现安全漏洞并提供修复建议。它有助于开发人员识别和解决日志注入、硬编码凭证和最佳实践违规等问题。Costa强调了该服务与各种开发环境、CI/CD管道和容器扫描工具的集成,确保在整个软件开发生命周期中实现全面的安全覆盖。
DevOps Guru被引入作为一种全面的亚马逊云科技服务,用于自动检测、主动和被动洞察以及对Lambda、DynamoDB、Kinesis、RDS和SQS等服务进行指导式根本原因分析。Costa分享了一个示例,说明DevOps Guru如何识别出一个Lambda函数的高严重性问题,关联相关指标,并提供启用预配置并发的补救建议,从而降低延迟。
最后,Schwarza和Costa强调了亚马逊云科技与合作伙伴共同构建运营未来的承诺。他们在活动上展示了几个经过验证的AIOps解决方案合作伙伴,并鼓励与会者探索这些合作伙伴关系,以加速他们的可观察性成熟度之旅。该演讲全面概述了亚马逊云科技对AIOps的愿景、现有的AI驱动服务,以及将AI和自动化整合到云运营中,以提高效率、减少手动任务,并实现主动问题检测和解决。
下面是一些演讲现场的精彩瞬间:
演讲者概述了对AI运维和运营的关注,讨论了亚马逊云科技对AI运维的愿景、云运营中现有的AI服务功能以及经过验证的AI运维合作伙伴。
亚马逊云科技重点介绍了其先进的云运营合作伙伴,他们整合了AI服务,为客户创造价值,展示了他们在AI运维方面的专业知识。
亚马逊云科技计算优化器使用机器学习分析您的工作负载指标,并为您的EC2实例、RDS数据库和Lambda函数提供正确调整大小的建议,优化成本和性能。
亚马逊云科技为CloudTrail Lake和CloudWatch引入了基于AI的自然语言查询功能,允许用户使用普通语言提出问题,无需学习复杂的查询语言。
亚马逊云科技提供了一个全面的AI运维监控框架,涵盖应用程序、资源、指标、日志、跟踪和CloudTrail数据。
DevOps Guru自动检测异常情况、设置警报并提供见解来解决问题,如高Lambda执行时间和API网关延迟,建议为Lambda函数启用预配置并发。
亚马逊云科技展示了与合作伙伴共同构建运营未来的决心,在Expo上重点介绍了云运营合作伙伴提供的经过验证的AI运维解决方案。
总结
这场演讲深入探讨了AI驱动运维(AIOps)的领域,以及亚马逊云科技如何利用人工智能来彻底改革云运维。演讲首先强调了减少工程师日常工作的愿景,让他们能够专注于创新和创造性的问题解决。随后,演讲者们探讨了MLOps和AIOps之间的区别,后者包括使用AI/ML管理整个运维环境。
演示展示了各种集成了AI功能的亚马逊云科技服务,以增强云运维。诸如Compute Optimizer、CloudTrail Lake和CloudWatch等服务利用自然语言处理和机器学习来优化资源利用率、实现直观查询和检测异常。此外,CodeGuru Security和DevOps Guru等服务分别提供自动化安全扫描和主动问题检测。
演讲者强调了在当今云原生、分布式应用程序中,AI驱动的可观察性的重要性,它能够实现高效的根本原因分析、告警管理和自我修复能力。他们概述了使用AIOps进行监控的框架,包括指标、日志、跟踪、异常检测和自动化修复。
最后,演讲强调亚马逊云科技通过与经过验证的AIOps解决方案提供商建立合作伙伴关系,致力于构建运维的未来。它鼓励与会者探索这些合作伙伴产品,并利用AI驱动的服务来简化云运维、增强安全性并提高运维效率。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。