CMP334 | 介绍基于 Amazon Inferentia2 的 Amazon EC2 Inf2 实例
关键字: [Amazon Web Services re:Invent 2023, Inferentia, Large Language Models, Distributed Inference, Accelerator Memory Bandwidth, Model Parallelism, Tensor Parallelism, Neuron Sdk]
本文字数: 1300, 阅读完需: 6 分钟
视频
导读
介绍新的 Amazon EC2 Inf2 实例,其中包含Amazon Inferentia2,这是由亚马逊云科技构建的第三个 ML 加速器,并针对 ML 推理进行了优化。参加本节课程,首先了解 Inf2 实例如何在云中为客户最苛刻的 1000 b+ 参数深度学习模型提供最低的每次推理成本。深入探讨 Amazon Inferentia2 是如何构建的,以在 Amazon EC2 上部署下一代 100B+ 参数深度学习模型进行推理。
演讲精华
以下是小编为您整理的本次演讲的精华,共1000字,阅读时间大约是5分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。
视频以亚马逊EC2团队的产品经理乔·塞拉热情地欢迎观众参加re:Invent开始。乔首先快速打量了一下房间里的人员,了解他们对Inferentia产品的熟悉程度。看到许多人都很熟悉,他提到了亚当·塞尔斯基当天上午的主题演讲中关于令人兴奋的与机器学习相关的公告,特别是推出了具有最新机器学习加速器芯片Inferentia 2的全新Amazon EC2 M2实例,这是乔最兴奋的事情。
乔介绍了自己,并提到他已经带来了两位亚马逊客户来分享他们使用Inferentia的经验——Qualtrics的高级机器学习工程师萨米尔和亚马逊CodeWhisperer的高级软件开发经理Shrini。在接下来的45分钟里,乔概述了他们将:
- 讨论正在各行各业以及在亚马逊云科技发生的人工智能和机器学习的创新
- 解释亚马逊云科技如何通过像Inferentia这样的产品努力使机器学习推理民主化,使其更加易于访问
- 听取Samir关于Qualtrics使用带有Inferentia M1的高性能自然语言处理的过程的介绍
- 深入了解驱动M2实例的Inferentia 2硅片的最新创新
- 听Shrini介绍M2实例如何支持大型语言模型的分布式推理,这是亚马逊CodeWhisperer的功能
乔从近年来人工智能和机器学习的巨大增长开始介绍。他分享了例如如何使用ML帮助Netflix提供个性化的节目推荐,如何为Alexa语音助手提供动力,以及公司如何使用它来检测欺诈等例子。乔解释说,虽然机器学习训练得到了很多关注,但推理对于将模型投入生产至关重要。亚马逊云科技的目标是将机器学习纳入每位开发者的范围,使其更容易部署机器学习以造福客户。
Inferentia芯片是这一战略的核心。乔解释了Inferentia如何在最小化成本的同时提供高性能的机器学习推理。第一代Inferentia1芯片为其M1实例提供了动力,这些实例以低成本处理NLP、计算机视觉和语音识别工作负载。乔很兴奋地要讨论下一代Inferentia2,它将带来新的功能。
乔邀请了Qualtrics的高级机器学习工程师萨米尔上台,共同探讨他们在使用Inferentia M1方面的经验。萨米尔分享了Qualtrics如何运用自然语言处理(NLP)技术,为客户的支持、产品反馈等方面提供体验管理软件。他们使用了大型语言模型如BERT,从非结构化文本中提炼出有价值的信息。然而,过去他们使用的是GPU,但对于他们的规模而言,成本过高。
萨米尔解释道,使用M1,他们可以在保持低成本的同时,以两倍于GPU实例的速度运行BERT-Large推理。这一高吞吐量和有竞争力的定价组合彻底改变了游戏规则。这使得他们能够随着数据量的增长扩大推断规模。此外,萨米尔还展示了如何使用亚马逊云科技Neuron SDK轻松地将模型部署到M1上,而无需大量的重新工程工作。
在感谢萨米尔分享Qualtrics的使用案例之后,乔继续讨论了新一代的Inferentia芯片和M2实例的技术创新。他首先解释了他们是怎样设计Inferentia 2来实现高性能和灵活性的。例如,他们将用于控制逻辑的CPU与用于执行计算任务的数据路径相结合。这种架构在可编程性和专业性之间达到了平衡。
乔强调的一个关键创新是Inferentia 2神经元核心内的嵌入式向量处理器。这实现了每周期4000位的内存带宽,比CPU高出10倍。这使得自定义操作可以直接在加速器上运行,而不需要将数据来回移动到CPU。
乔还解释了如何通过支持不同的数据类型(从float32到bfloat16再到float8)来优化吞吐量、延迟和准确性。Inferentia 2在float32上的性能最高可达GPUs的4.3倍。加速器之间的高速连接创建了一个384GB的内存池,以支持使用张量并行主义的数十亿参数的模型。
为了展示性能提升,乔分享了例如亚马逊搜索将百亿参数模型在M2上的吞吐量提高了2倍的例子。他强调了M2专为经济高效地服务这些大型语言模型而构建。
乔接着谈论了亚马逊云科技Neuron SDK如何简化对M2的部署,通过处理编译、优化和监控。这使客户能够在不进行大量模型调整的情况下获得良好的性能。目标是让客户将模型原样带来并顺利地在M2上运行。
在活动接近尾声时,乔邀请到了来自亚马逊CodeWhisperer的Shrini,共同探讨他们在大型语言模型领域的研究成果以及与M2在分布式推理方面的应用所揭示的全新可能。乔强调指出,Inferentia 2芯片在计算能力、内存容量、数据处理类型以及内部连接等方面均具有革命性的创新,旨在优化现代机器学习方法。
下面是一些演讲现场的精彩瞬间:
亚马逊近日推出了具备Inferentia 2功能的Amazon EC2 M2实例,这是一款具有高性价比的机器学习推理加速器。
作为全球领先的云计算服务提供商,亚马逊云科技正通过创新型的定制硅芯片和分布式功能,推动机器学习推理的普及。
相较于传统的CPU,Graviton3处理器可提供高达一倍的内存带宽,使得定制化操作能在计算单元上高效执行,避免数据传输瓶颈。
亚马逊云科技的Inferential 2支持六种独特数据类型,并通过灵活的浮点精度优化机器学习工作负载。
Trainium和M2能够为大型AI模型提供高可扩展性的训练和推理能力,这些模型需要在多个芯片之间进行分布处理。
M2在高性能处理大型语言模型的同时,不会引发类似于GPU的内存问题。
此外,Neuron还为边缘基础设施和工作负载提供了实时的可视化和监控功能。
总结
亚马逊近期推出了名为Amazon EC2 M2的新型实例。这款实例搭载了最新的机器学习加速器Inferentia 2,以实现高效的自然语言处理推理。这一新实例类型进一步丰富了现有的机器学习产品线,使客户能够提升其应用性能并降低运营成本。
M2实例所采用的创新技术允许动态执行以及在不牺牲性能的前提下增加灵活性。这种架构将一个控制CPU与一个高度优化的数据路径相结合,使硬件能够在处理数字的同时支持条件语句和循环。此外,M2还支持加速器之间的直接连接,以及高达每秒10TB的加速器内存带宽,这对于大型模型的分布式推理过程至关重要。
通过最多支持6种数据类型,客户可以根据需求优化吞吐量、延迟和准确性。相较于GPU,M2在大参数为30亿的大型模型上每秒可提供573个令牌,吞吐量高出3倍以上。而对于更大的66亿参数模型,M2能提供每秒248个令牌,而GPU会受到内存限制的影响。亚马逊搜索在其10亿参数模型上的表现,M2的性能比GPU高出2倍。
亚马逊云科技的Neuron SDK使得只需几行代码便能将模型编译成M2。该SDK包含了编译器、运行时和剖析工具,无需模型调整即可实现高性能。同时,监控和调试工具如Neuron-top提供了实时利用率指标。总之,M2实例为亚马逊云科技提供了一个极具性价比的推理平台。
演讲原文
想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
2023亚马逊云科技re:Invent全球大会 - 官方网站
点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!
点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!
即刻注册亚马逊云科技账户,开启云端之旅!
【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”
亚马逊云科技是谁?
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。