AMZ302 | 亚马逊如何使用更高指标来提高网站性能

AMZ302 | 亚马逊如何使用更高指标来提高网站性能

关键字: [Amazon Web Services re:Invent 2023, Trim Mean 99, Latency Metrics, Website Performance, Trim Mean, Histograms, Cloudwatch]

本文字数: 2800, 阅读完需: 14 分钟

视频

导读

在本次分享中,了解如何通过 Amazon.com 延迟指标和目标相关洞察来改善网站延迟。了解亚马逊如何利用网站延迟指标优化买家体验。了解为何全新 Amazon CloudWatch 修剪平均指标优于其他指标,如何使用它以及它具备哪些优势。此外,了解亚马逊如何使用全新延迟测量目标来避免往日陷阱,以及如何在各自环境中应用亚马逊学习。

演讲精华

以下是小编为您整理的本次演讲的精华,共2500字,阅读时间大约是12分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

詹姆斯·罗斯金斯(James Roskind),作为一位杰出的亚马逊工程师,以及来自亚马逊云计算服务(Amazon Web Services)的弗兰克·史东(Frank Stone),为我们带来了一场关于亚马逊如何运用更优秀的指标,特别是中位数和直方图,以显著提升网站性能的深度探讨。

詹姆斯首先强调了选择合适的性能指标的重要性。对于管理者而言,优秀的指标可以帮助他们准确地评估开发团队是否在改善终端用户延迟方面取得了成效。对于开发者来说,正确的指标能引导他们取得有意义的进步,从而实实在在地提升用户体验。詹姆斯解释道,他将重点关注好与坏延迟指标及目标之间的重要差距。他暗示可能会有一些令人惊讶的内容,可能会改变观众们对性能测量的认知。

詹姆斯首先探讨了基于所设定目标的组织内部的动态过程。他创造了一个术语“组织动力学”来描述一个团队如何应对由绩效目标产生的激励。詹姆斯预测到他会展示这些组织动力学的影响,某些常见的指标和目标可能无意中阻碍了延迟改进的情况。

詹姆斯接着列举了一些广泛使用的有问题的延迟指标和目标的例子。第一个是阈值指标,如“99%的页面在1秒内完成”。虽然这听起来很合理,但詹姆斯解释了它如何产生了错误的激励。这个单一阈值使得在达到阈值之前,开发者没有获得任何改进的功劳。一旦达到了阈值,实际上存在了一种激励去变得更糟,因为这对指标没有影响。

为了说明这一点,詹姆斯讲述了一个假设的故事,关于一个在印度的管理员,他的平均往返服务器延迟为400毫秒。由于400毫秒已经超过了1秒的阈值,所以这个管理员没有动力投入资源来改善印度用户的延迟。这种“篱柱”指标创造了这样一种障碍,使得处于错误一侧的团队被完全忽视。詹姆斯认为,阈值指标不能提供持续的动力来降低延迟。

吉姆试图解决基于百分位数指标的问题,如P50和P90等。虽然这些指标(如P50代表中位延迟,P90代表第90百分位数)看起来直观易懂,但吉姆指出,由于组织的动态性,这些指标也可能产生错误的激励。开发人员可能会专注于提高特定百分位数,从而可能以牺牲其他用户的体验为代价。

吉姆提供了实际数据,揭示了百分位数指标如何扭曲网络性能分布。数据显示,P50和P90处存在剧变,这是因为开发人员针对这些指标进行了优化。同样值得关注的是,测量百分比之外的用户延迟随着时间的推移而恶化。吉姆强调说:“我们得到了我们所要求的,但不是我们想要的。”将百分位数作为整体用户体验的代理是无效的。

在详细讨论了当前指标的问题之后,吉姆提出了他的建议替代方案——截断平均值。截断平均值会剔除一定比例的异常值,例如顶部1%或0.1%,然后计算剩余分布的平均值。这种方法关注的是广大用户群体的总体延迟,而不是阈值或百分位数。

吉姆解释了截断平均值如何提供持续的改进动力并赋予开发人员渐进式增益的荣誉。它还具有抵抗异常值影响平均值的能力。他分享了亚马逊电子商务数据,表明在切换到抛弃顶部1%异常值的截断平均值99(TM99)指标后,延迟显著改善了30-40%。吉姆透露,TM99还帮助亚马逊及时发现了性能衰退,避免了6个月内出现500毫秒的退化。

除了使用截断平均值来衡量指标外,吉姆还提倡使用直方图来可视化延迟数据的完整分布。丰富的可视化使得深入理解模式、意外的波动以及优化机会变得更加容易。吉姆展示了一个例子,调查了Chrome中的TCP连接延迟,发现了诸如导致3秒附近峰值的包丢失超时等问题。仅在查看摘要指标(如百分位数)时,这些见解是难以发现的。

在吉姆全面概述了这些概念之后,弗兰克·斯通走上舞台,解释了亚马逊云科技的顾客如何使用CloudWatch实现类似的收益。弗兰克概述了一个四步过程:

  1. 使用Real User Monitoring、CloudWatch API或带有内置指标的日志将指标数据输入到CloudWatch中。

在计算指标时,采用中位数而非百分位数,以确保足够的样本数量以保持准确性。此外,设置警报和控制面板以监控指标并触发对问题的自动响应。通过将数据分为不同的百分位数范围并使用条形图,可以生成直方图。弗兰克通过实际的配置示例和截图详细解释了每个步骤。他提供了关于中位数配置、真实用户监控、亚马逊云科技CloudWatch API以及生成直方图的文档参考。对于已经在使用亚马逊云科技CloudWatch的客户,弗兰克强调了从百分位数指标切换到中值指标的简单性。

总的来说,吉姆和弗兰克通过展示亚马逊如何通过更准确的指标(如TM99)和丰富的可视化(如直方图)实现了网站性能的30-40%的重大改进。通过关注总体延迟而非阈值或百分位数,并深入了解分布情况,亚马逊改善了数百万用户的客户体验。亚马逊云科技的CloudWatch工具旨在帮助客户实现类似的基于指标的性能提升。

演讲者提供的令人信服的案例和明确的指南为观众带来了巨大的价值。吉姆和弗兰克的演讲体现了亚马逊对客户的关注。重点是通过指标来赋予客户提供最佳可能用户体验的能力,而不仅仅是推广亚马逊云科技的产品和服务。这种叙事方式使得演讲者不仅能够传达技术细节,还能够传递他们多年宝贵经验的关键见解。

例如,吉姆用“组织动力学”这个简洁的概念概括了如何利用指标塑造行为。印度经理的假设故事以一种引人入胜且令人难忘的方式揭示了这些动力学的本质。弗兰克也用类似的真实例子(如调试负载峰值)使亚马逊云科技CloudWatch的指导更具相关性。演讲不仅关注了干巴巴的技术参考,还激发了观众回到他们的团队并主动改善他们的指标。

很明显,演讲者投入了大量的准备来精心构建一个能够成功传达他们专业素养的故事。吉姆巧妙地组织了演讲。他首先引入了延迟问题,然后彻底证明了当前指标的错误之处,最后揭示出中值作为有效的解决方案。弗兰克接着以一种容易消化的方式概述了应用这些学习经验的步骤。

詹姆斯和弗兰克通过将精湛的技术、令人信服的案例和清晰的结构完美结合,呈现了一场精彩的演讲。他们的讲述方式不仅传达了信息,还提供了深刻的见解。观众们无疑在离开后既受到了启发,也受到了激励,去实施那些真正改善他们客户体验的变革。

下面是一些演讲现场的精彩瞬间:

领导者强调了对终端用户延迟进行衡量和改进的正确指标的重要性。

领导者的展示中,令人印象深刻的对比柱状图揭示了网站性能在10个月内的大幅提升。

互联网拥堵导致约2%的数据包损坏,从而增加了平均60毫秒的延迟。

演讲者通过观察延迟柱状图,解释了如何优化机会,使整体表现更加清晰。

截图展示了一个设置在Amazon CloudWatch中的警报阈值,一旦超过该阈值就会发送通知以启动自动响应。

文中还介绍了一些有用的资源,如实时用户监控和嵌入式指标格式。

总结

本次演讲的核心主题是如何利用更好的指标,例如中位数值,以提高网站性能。据演讲者表示,诸如百分位数等常见的性能指标可能会误导开发人员专注于实现个别目标,而忽略了整体性能的优化。

演讲者解释说,中位数值能够排除一部分异常值,从而提供更加全面的性能评估。在亚马逊公司改用中位数值后,一年的延迟时间减少了30-40%。此外,演讲者还推荐使用了直方图,这种图表能揭示出聚合指标中所无法看到的性能问题。

在演讲的最后部分,演讲者展示了如何在亚马逊云监控中实施中位数值和直方图。其主要建议包括选用中位数值替代百分位数、确保有足够的样本量、单独监控异常值并根据指标阈值自动触发警报和响应。采用更优秀的指标和可视化方法有助于持续优化网站性能。

演讲原文

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值