Pinterest 的性能和效率:优化最新实例(由 Intel 赞助)

关键字: [Amazon Web Services re:Invent 2023, Intel Software, Optimization, Performance, Cost Efficiency, Compression, Encryption]

本文字数: 1300, 阅读完需: 6 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1qH4y1C76t

导读

性能优化通常需要权衡:要么提供更高的吞吐量和更好的延迟,要么在降低成本的同时保持当前的吞吐量和延迟。但两者是否可以兼得?了解 Pinterest 如何通过与 Intel 的合作将成本效率提高 50%,并了解他们使用 Intel 最新实例显著提高性能的经验。本讲座涵盖性能优化,通过利用新的 ISA 和加速器,在最新的 Intel 实例上实现高达五倍的性能提升,并且在许多情况下无需更改任何代码。本讲座由亚马逊云科技合作伙伴 Intel 为您带来。

演讲精华

以下是小编为您整理的本次演讲的精华,共1000字,阅读时间大约是5分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

将基础设施支出减少50%或更多,并将开发者上市时间加快两倍或更多。

Ravi解释说,云栈顶层(与应用程序相关)往往发展迅速,而底层如运行时间和基础设施则进展较慢。他指出,有许多常见的软件基元,如Zlib等压缩库,它们消耗高达40%的CPU时间,但开发者并不总是关注它们的优化。即使在规模运营中,对这些更低层次的基元的微小优化也可以提供两倍或更大的性能提升。

最后,Ravi通过引入来自Pinterest的Ambu展示了三个引人入胜的优化案例研究,这些研究利用了亚马逊云科技的服务。

Pinterest的S3上传器服务Merc在处理数据解压缩和排序后将数据加载到Amazon S3。通过采用Zlib-NG优化压缩方法,CPU利用率降低了40-50%。当结合使用从C5升级到C6i实例的方式时,这导致CPU使用率总体提高了50%。在不降低S3吞吐量的情况下,每个集群实现了30-40%更好的成本效益。

另一个案例是对在EC2上运行的Apache Kafka进行优化,其为Pinterest的发布/订阅工作流程提供了超过50%的支持。通过分析,英特尔公司发现,压缩是主要瓶颈,消耗了超过35%的CPU周期。将压缩切换到ZSTD和Zlib-NG后,CPU使用率减少了40-50%。对SSL的JDK 17的进一步优化使性能额外提高了18-22%。总而言,CPU使用率减少50%以上,且不会影响到延迟。这使得在EC2上运行Kafka集群的成本降低了25-50%。

第三个用例是Rockstore,这是Pinterest基于RocksDB的关键值存储,也在EC2上运行。一个错误导致了与核心功能无关的35-55%的过量CPU使用。在解决错误问题并从i3升级到i4i实例后,CPU使用率下降了20-25%(绝对值)和10%(相对值)。这在EC2上的价格性能上实现了15-20%的改进。

总的来说,通过使用最新的Intel支持的EC2实例(如i4i)以及充分利用Cindy和向量指令,可以在亚马逊云科技上实现高达40%的价格性能优势。通过更新JDK版本至17,可以轻易实现最高达22%的节省。同时,优化CPU、内存和I/O等多个维度对于在EC2上实现最多50%或更多的最大收益至关重要。然而,过程中可能会遇到需要回滚和重新评估的问题。

Lavi随后指出,在亚马逊云科技上运行的Metal实例拥有诸多优势,如全面的性能计数器访问、解锁控制和内置加速器等,包括用于数据传输的DSA、用于压缩/加密的IQA以及用于队列管理的DLB。他强调了IQA加速器在工作负载使用KMS的情况下,能将CPU开销降低28-46%,同时将加密吞吐量提高2-3.5倍。在处理压缩问题时,处理量可以提高到23倍,同时CPU成本降低96%。

转向AI工作负载,Lavi解释了最新款英特尔支持的实例如何在EC2上得到适当优化,使得具有数十亿参数的大型变压器模型可以实现低于100ms的延迟。他指出英特尔对开源项目如PyTorch和TensorFlow的贡献,并指出截至2022年11月,英特尔在Hugging Face排行榜上排名第一。

在讨论英特尔与亚马逊云科技的合作时,Lavi分享了他们如何优化许多亚马逊云科技服务使用的基础性库,从而受益于ELB、API网关和WAF等服务。对于S3,优化校验和库使吞吐量提高了3倍以上。Lavi还提到英特尔正在向OpenSearch贡献优化,该搜索引擎在某些工作负载中运行在EC2上时,通过优化某些工作流程,速度可以提高2-5倍。

在总结中,Lavi注意到这些优化很多是开源的,并在利用亚马逊云科技服务时鼓励应用分析以发现机会,例如压缩、加密、AI、矢量化等方面。他提到了英特尔公开提供的工具和资源,可以帮助优化可能根据工作负载驱动10-50%的效率提升。

总的来说,Lavi和Amb的演讲涵盖了在云基础设施、服务和应用中进行实际优化的方法,这些方法可以在运行在亚马逊云科技上时提供显著的成本节省、25-50%的性能提升和2-3倍的效率提升。通过利用最新的硬件功能、识别消耗35-55%资源的瓶颈以及优化常见基本操作,组织可以显著减少其云计算支出。英特尔通过大量的开源贡献以及与合作伙伴(如亚马逊云科技)的合作,展示了推动这些优化的承诺。

下面是一些演讲现场的精彩瞬间:

领导者承诺将在大会上公布众多激动人心的消息,同时对与会者所需的长途旅行表示歉意。

虽然性能需要专业化,但要想更快地行动,就必须实现标准化——这两者并非水火不容。

亚马逊云科技的负责人详细阐述了四个优化步骤,以持续优化其服务。

Pinterest对其数据上传服务进行了优化,以降低运营成本,同时不影响处理量和可用性。

团队认为,通过优化压缩算法,既可以降低成本,又可以提高处理量,因此他们评估了高效压缩库,如Zstd,尽管在使用过程中可能会遇到一些挑战。

经过优化后,亚马逊的ZSTV服务的CPU使用率降低了50%以上,而延迟并未上升。

优化中心还为不同亚马逊云科技实例类型和大小的用户提供了更新的优化建议,以提高性能。

总结

这段视频探讨了Pinterest如何在优化云性能和效率方面所做的努力。主要关注的是通过软件和硬件改进来降低成本,同时不影响服务的可用性或吞吐量。

首先,优化常见软件原语(如压缩和加密)具有很大的潜力。这些操作虽然耗费大量CPU时间,但却往往未得到充分优化,因此可以带来性能的提升和成本的降低。例如,对gzip压缩进行优化使Pinterest的数据上传服务效率得到了显著提高。

其次,将软件和硬件优化相结合能产生更大的效果。在Pinterest的Kafka集群中,通过压缩和SSL的软件优化以及实例升级,成功地减少了CPU的使用。他们的键值存储也通过软件监控修复和硬件升级实现了CPU的节省。

最后,持续迭代优化过程非常重要。Pinterest采用系统化方法,首先找出瓶颈,然后进行分析确认,实施优化并进行验证,最后逐步推广改变。这样确保在优化过程中维持高水平的服务可用性。

总的来说,这个演讲展示了一个全面的方法,通过软件和硬件优化大大提高了云的效能,同时也保持了强大的服务质量。谨慎的迭代和验证对于在规模上实现优化的成功至关重要。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134818089

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值