COP302 | 制定可观察性策略

COP302 | 制定可观察性策略

关键字: [Amazon Web Services re:Invent 2023, Amazon CloudWatch, Customer Experience, Kpis, Metrics, Stakeholders, Troubleshooting]

本文字数: 2300, 阅读完需: 12 分钟

视频

导读

您是否有可观察性计划?您是否了解应用程序利益相关者想要观察什么?当您迁移到云中或在云中的运营成熟时,优化可观察性计划以帮助利益相关者了解您的应用程序是如何运行的,这非常重要。参与本次分享,了解如何确定未来的可观察性战略,以满足所有利益相关者的要求,并帮助确保交付成功的业务成果。

演讲精华

以下是小编为您整理的本次演讲的精华,共2000字,阅读时间大约是10分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

此视频以亚马逊云科技的三位云运营专家——亚历克斯(Alex)、安雅(Anya)和伊戈尔(Igor)的简介开始。他们简要介绍了各自的背景,包括工作经验和个人生活细节。

亚历克斯在IT领域拥有超过20年的经验,目前担任一名专注于亚马逊云科技观察性解决方案的架构师。在个人生活中,他是7岁女儿的父亲。随着年龄的增长,他放弃了终极飞盘运动,转而喜欢上了高尔夫球。

安雅也是亚马逊云科技云运营团队的一名解决方案架构师,她在IT领域拥有超过20年的经验,其中包括在亚马逊云科技专门工作了3.5年。作为两个15岁和20岁的女儿的骄傲母亲,安雅表示她是一只猫爱好者,她有四只猫和两只狗,它们经常出现在她组织的观察性工作坊中。

伊戈尔是亚马逊云科技应用观测的一般经理,他是10岁女儿的父亲。他的热情之一是滑雪板,只要有机会,他就会去山区享受这项运动。

在简介结束后,伊戈尔为他们关于制定有效的观测策略的讨论奠定了基础。他指出,对于任何有价值的业务,为了实现预期目标,性能需要进行观测。关键是观测解决方案必须能够扩展,具有99.99%或更高的可用性,并简化云操作。

在深入探讨之前,演讲者首先通过概述亚马逊云科技生命周期中的观测在哪里发挥作用来提供背景。第一步通常是建立合规的操作环境,通过设立亚马逊云科技组织、IAM角色和合规控制来实现。接下来,应用程序使用像CloudFormation这样的服务在亚马逊云科技中迁移或直接开发。一旦进入生产阶段,就使用像CloudWatch和X-Ray这样的工具来观测和监控应用程序的性能。

任何都同意这个观点,认为亚马逊云科技的团队关注的最重要指标是与顾客最相关的那些,而非平均值或汇总值。据伊戈尔表示,每周在公司范围内的大会上,各个团队都会展示他们的关键指标,并根据客户影响来讨论运营的状况。因此,关注的焦点并非技术指标,而是诸如API延迟、控制台可用性和整体用户体验等方面的问题。"

为了证实这一观点,演讲者们让在场观众在手机上浏览一个由亚马逊CloudWatch真实用户监控的简单电影网站。当被问到哪些指标最重要时,观众们纷纷喊出了诸如延迟、响应时间、错误率、数据新鲜度和每秒点击次数等答案。这些指标都能提供关于真实客户体验的洞察。

亚历克斯解释道,亚马逊的愿景是成为地球上以客户为中心的公司,所以他们总是从客户的需求出发,然后再考虑其他方面。这种“客户至上”的原则也应应用于可观察性领域——首先要了解客户需求,然后反过来决定需要监视什么。

对于电子商务网站来说,关键的客户需求包括快速配送、良好的价格、安全性、快速的页面加载速度以及相关的搜索结果。任何指出,2017年的一项研究显示,如果页面加载时间超过3秒,53%的移动用户会放弃浏览,这表明了页面加载时间对业务的巨大影响。根据一些估计,即使1秒的延迟也可能导致7%的转化率损失。

在确定了客户需求之后,接下来需要将这些需求与组织内部的利益相关者分享。演讲者们强调,与利益相关者交流以了解他们关心的可能影响客户需求的指标非常重要。

为了说明这一点,亚历克斯和任何模拟了一个典型场景,其中业务利益相关者向技术团队提出了各种指标,如购物车放弃率、基础设施成本、安全事件、页面加载时间和搜索相关性数据。通常的回答是“我会再联系你”,因为获取这些数据并不容易。

然而,通过实施与客户需求一致的KPI仪表板,有效的可观察性策略可以主动呈现这些关键指标。这样既可以避免利益相关者不断要求一次性报告,也可以让技术团队在客户受到影响之前检测到问题。

Alex首先阐述了如何从客户需求出发进行逆向工程,随后与利益相关者共同制定关键绩效指标(KPI)。接着,确定了衡量这些KPI的标准和数据来源,包括但不限于日志、追踪等指标。通过利用云监控仪表板等服务,构建了基于利益相关者KPI的仪表盘。同时,通过云监控警报配置,实现业务成果风险时的预警。

作为实例,他强调了搜索结果未命中这一指标的重要性。尽管这不是一个技术指标,但它可能揭示了需要解决的搜索相关问题。借助贡献者洞察,分析应用程序日志事件中的字段以监控此指标。具体而言,贡献者洞察使得他们能够计算出每年在应用程序中搜索的总次数。由于可搜索的年份有限,他们可以识别出任何产生0结果的搜索,而这些本应有其他有效结果。这有助于优化搜索算法。

在设计仪表板方面,Alex强调了既要考虑高级别的客户体验仪表板,也要考虑到较低级别的技术仪表板。Anna探讨了如何开始定义警报,包括确定什么是警告、警报或可操作警报的策略。她建议遵循“3am规则”——如果警报不会在凌晨3点唤醒你,那么它不应被视为警报。此外,还有其他技巧如使用云监控复合警报将具有AND/OR逻辑的指标组合在一起,使用警报抑制减少噪音,运用异常检测识别异常值,将警报发送给合适的人员,制定应对策略,并利用亚马逊云科技系统管理运行簿本,自动执行修复。目标是为用户提供有意义且可操作的警报。

在讨论日志和追踪的重要性时,Alex解释了它们如何作为指标的补充,帮助更快速地找到问题的根源。虽然指标能发现潜在问题,但日志和追踪提供了详细的背景信息。他还展示了如何通过云监控日志洞察和分析X-Ray追踪来解决网站问题的一些案例。针对Apache日志,他会搜索403和404错误事件,这可能揭示机器人活动。启用结构化日志使得这些日志更易查询和分析。

伊戈尔强调了一种针对关键业务活动的技术,即通过注入自定义日志事件来实现购买或删除等功能。这种技术在解决CloudWatch日志调查问题时具有很高的价值。亚历克斯随后进行了一场演示,展示了他如何使用X-Ray服务映射来提供跨应用程序的故障概览。通过点击故障节点、查看轨迹并检查异常详细信息,他可以迅速深入了解某个特定的错误消息。暴露出的错误是由于DynamoDB的抑制问题导致的。通过简单地将DynamoDB中的容量设置为10个单位,这个问题可以在几分钟内得到解决。尽管这是一个简单的案例,但它展示了可观察性工具在快速解决问题方面的能力。在这种情况下,X-Ray服务映射提供了应用程序健康状况的高级可视化,而轨迹则允许深入分析导致错误的特定代码行。关键在于:关注客户体验的可观察性而非仅仅关注技术指标;从客户需求出发进行倒推思考;与利益相关者交流以确定对客户而言重要的指标;使用诸如CloudWatch、X-Ray和Contributor Insights之类的工具来监控关键指标并解决问题。演讲者在演讲结束时发表了一些告别致辞。亚历克斯提到了一个涵盖亚马逊云科技可观察性的新培训课程,包括CloudWatch、X-Ray、警报配置、日志分析和开源工具等内容。阿尼娅提醒大家完成会议调查问卷。伊戈尔、亚历克斯和阿尼娅共拥有超过20年的经验,他们分享了如何在亚马逊云科技服务上制定有效的、以客户为中心的可观察性策略的实际经验。通过从客户需求出发并与跨职能团队合作,组织可以设置正确的指标、仪表板和警报以主动监控客户体验。通过本演示中概述的策略,团队可以在亚马逊云科技上实现所需的可观察性,从而不断提高客户满意度。

下面是一些演讲现场的精彩瞬间:

领导者探讨了制定战略以及深入研究技术细节的可能性。

领导询问员工关于亚马逊云科技客户体验方面最重要的绩效指标的问题。

领导者阐述了亚马逊云科技如何定期进行公司范围内的会议,以便审查关键指标并确保各项服务顺利运行。

领导者强调了亚马逊云科技的全球影响力,因为其服务需求来自世界各地的47,000多个国家和地区。

领导者强调了亚马逊的愿景,即成为地球上以客户为中心的公司,始终将客户需求放在首位并进行逆向思考。

领导者邀请观众参观Observable的展览,以了解更多关于这个开源监控工具的信息。

总结

演讲者强调,在制定可观察性策略时,应以客户需求为出发点,然后反向了解其需求。这样可以帮助您得出有意义的KPI和指标,以便深入了解客户体验。尽管CPU和RAM使用等技术指标至关重要,但与客户满意度相关的关键指标更为重要,例如页面加载时间、错误率和可用性。仪表板应关注利益相关者和以客户为中心的KPI。在设计警报时,只需设置针对可操作事件的警报,并将其发送给有权迅速解决问题的人员。利用追踪功能加速根本原因分析。日志记录了事件的不可更改记录,而追踪则端到端链接交易。

关键在于专注于您的客户。从他们的需求出发,与利益相关者合作确定KPI,并将可观察性集中于衡量和改进客户体验的指标上。

演讲原文

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值