re:Invent 2023 | 在 Amazon SageMaker 上部署基础模型，实现性价比

最新推荐文章于 2024-10-10 08:09:02 发布

李白的朋友高适

最新推荐文章于 2024-10-10 08:09:02 发布

阅读量1.4k

点赞数 23

文章标签： aws 亚马逊云科技科技人工智能 re:Invent 2023 生成式AI 云服务

本文链接：https://blog.csdn.net/weixin_40272094/article/details/134813712

版权

关键字: [Amazon Web Services re:Invent 2023, Amazon SageMaker, Sagemaker, Large Language Models, Inference, Deployment, Performance]

本文字数: 1900, 阅读完需: 10 分钟

视频

如视频不能正常播放，请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1Zb4y1K7Ez

导读

在您从评估基础模型 (FM) 到大规模构建生成式 AI 应用程序的过程中，您需要以最佳性价比部署这些模型的服务。从聊天机器人的低延迟（几毫秒）和高吞吐量（每秒数百万事务）用例到自然语言处理的长时间运行推理用例，您可以使用 Amazon SageMaker，满足几乎所有的推理需求。在本论坛中，深入了解使 SageMaker 成为部署基础模型进行推理的最佳选择的功能，并了解如何从亚马逊云科技创新中受益。

演讲精华

以下是小编为您整理的本次演讲的精华，共1600字，阅读时间大约是8分钟。如果您想进一步了解演讲内容或者观看演讲全文，请观看演讲完整视频或者下面的演讲原文。

在视频中，演讲者首先表示，2023年已经成为生成性人工智能的重大突破时刻，诸如DALL-E 2和ChatGPT等模型引发了巨大的兴奋并吸引了公众的想象力。他指出，根据著名的Gartner炒作周期方法，生成性人工智能现已达到“高估的期望顶峰”，这意味着这些技术已经超越了早期的开创性工作，进入了广泛的认识和对其潜在商业影响的过高期望阶段。

随着对生成性人工智能的兴趣达到前所未有的高度，演讲者承认，各行业的企业正急切地探索如何利用其强大功能来推动整个组织的变革性成果。例如，聊天机器人、文本和图像生成、摘要等功能有望在效率、客户参与度和智能决策支持方面带来显著的改进。

然而，尽管在这个新兴阶段可能性似乎无穷无尽，但演讲者警告说，将这些有前景的功能转化为实际现实世界结果还需要做很多工作。他强调了需要加速从初始实验到生成性人工智能模型全面生产部署的过程，以便开始实现具体的商业价值。

在讨论的核心部分，演讲者概述了从实验到将生成性人工智能应用大规模投入生产所涉及的通用步骤：

尝试使用不同的基础模型以找到适合特定用例的最佳选择
在相关数据上定制和微调选定的模型
确定适当的部署平台和基础设施
对部署进行性能优化以满足延迟、吞吐量和可扩展性的要求
设置CI/CD生产线以进行生产部署
监控在生产中的模型并定期进行更新

虽然这个总体工作流程在理论上很简单，但演讲者指出，在实际操作中，对于大型语言模型存在一些关键的挑战：

复杂性：像GPT-3这样的最新模型包含多达1750亿个参数，需要进行巨大的计算资源来进行推断。
性能：交互式应用程序要求极低的延迟仅为毫秒级别，以支持实时互动。

演讲者指出，对于这些模型而言，适用的GPU实例（如亚马逊云科技的p4d.24xlarge实例）每小时费用可能超过38美元，从而导致一些大型部署的每月费用可能超过50,000美元。他在将大型语言模型部署到生产环境中时强调了在复杂性、性能和成本三个因素间寻找合适平衡的必要性。

他还深入探讨了规模化部署大型语言模型所面临的特定挑战，包括高性能显卡和其他加速器的昂贵成本，以及大型模型无法装入单个加速器的问题。此外，他还提到了更新模型所需的双倍实例运行以及监控生产部署和快速替换故障硬件的需求。

为了解决这些问题，演讲者强调了亚马逊SageMaker作为一个完全托管的平台的价值，该平台可以处理从超低延迟实时推理到大规模异步批处理等不同的工作负载。他认为，使用SageMaker可以避免构建自定义基础设施所产生的巨大额外开销。

实时推理用于毫秒级的延迟预测；批量变换用于大型数据集的离线推理；异步推理用于长期运行的模型调用。单模型或多模型端点可组合功能；串行推理管道可用于链接模型和处理过程。支持在CPU、GPU、Inferentia和服务器无服务器基础设施上进行部署。

然而，演讲者强调，除了灵活性之外，SageMaker还为给定的模型部署提供了最佳性能和成本优化的组合。他重申，SageMaker提供了克服早期讨论的复杂性、性能和成本相关障碍的所有必要功能。

降低成本的SageMaker功能包括在同一实例上部署多个模型以共享计算资源，以及使用价格性能比高达40%优于对比GPU实例的低成本Inferentia实例。此外，根据流量模式精确匹配实例数量，以便在需要时按需付费，从而最大限度地减少过度供应和浪费支出。

大型模型推理容器包含诸如DeepSpeed之类的库，可自动在GPU上并行化模型以实现更快的推理速度。TensorRT支持高效地编译专门针对运行在其上的硬件的模型。轻松实现模型量化，可将精度降低到INT8/INT16等较低精度，从而减少计算需求。此外，连续批处理还可改善大规模工作负载的吞吐量。例如，某位演讲者表示，使用SageMaker的最新LMI容器对拥有700亿参数的Lama-2模型进行量化和编译后，实现了比前版本高60%的吞吐量，同时降低了33%的延迟。通过将所有最新技术打包在一起，他强调了SageMaker如何从开发人员中消除性能调优的负担。关于生产中的模型更新管理，演讲者解释了如何使用SageMaker简化无停机时间更新新模型版本的流程。滚动部署功能逐步将流量从旧模型转移到新实例，从而最小化了升级所需额外容量的需求。演讲者强调了这一过程如何在生产环境中简化了复杂模型更新的过程。为了展示SageMaker的功能，演讲者邀请了同事Rama进行现场演示，将大型语言模型部署到生产中。Rama通过一个简单的Jupyter notebook流程展示了这个过程：创建输入和输出结构定义、提供来自模型中心的模型ID并指定部署选项以及部署端点并调用实时预测。他强调了SageMaker在后台处理包装、容器和优化等复杂性，使开发人员能够专注于其应用逻辑。Rama展示了如何通过SageMaker Studio的可视界面实现相同的部署，而无需编写任何代码，提供了无代码体验。该演示突出了不同模型和实例类型的实验以及加速迭代的容易性。客户用例：Cisco Webex接下来，演讲者欢迎Travis Malinger从Cisco发言，讨论他们利用SageMaker的真实世界经验。Travis解释说，他的团队为Cisco流行的Webex协作平台开发了AI服务，该平台托管有各种智能功能，如自动会议调度、事件识别和虚拟助手。为了支持这些功能，他们的团队需要训练和部署大量不同的模型，每个模型都有独特的需求和约束条件。他们选择了SageMaker来简化这个复杂的过程，并提高效率。使用SageMaker，他们可以快速地将模型部署到生产中，并在需要时轻松地进行更新和管理。这使他们能够快速推出新功能并为客户提供价值。总之，SageMaker通过提供一系列工具和技术来帮助简化模型推理、管理和部署，使得开发人员能够专注于构建其应用的逻辑，而不必担心底层的细节。这使得像Cisco Webex这样的企业能够更快地推出新功能并提供更好的用户体验。

4000万月度会议: 76亿会议小时，400亿聊天消息

这些庞大的数据为我们提供了一个机会，可以利用大型语言模型从中提取价值。然而，思科还需在全球范围内以成本效益的方式应对各种使用模式。

Travis分享了SageMaker JumpStart是如何通过其快速部署的模型目录来加速开发的。这使得他们的工程师能够快速尝试不同的模型，并轻松将其集成到Webex应用程序中。

他阐述了一个关于电话摘要的使用案例，他们对SageMaker上的T5-XL基础模型进行了微调，从而在性能、准确度和成本方面实现了针对他们需求的最佳平衡。

Travis解释了SageMaker的功能，如LMI容器、自动扩展以及与亚马逊云科技其他服务的集成，如何提供了可预测的扩展、快速迭代和简化的操作。

展望未来，他期待利用SageMaker的创新功能，如多模型端点、扩展到零实例以及自动打包等，以推动进一步的改进。

总结

演讲者总结了SageMaker作为一个完全托管、专为大型语言模型生产部署设计的平台。通过处理操作复杂性，SageMaker加速了从实验到实际部署的过程。其灵活的托管选项、内置优化和专用工具使企业能够克服大型语言模型的性能、复杂性和成本挑战。通过SageMaker，公司终于可以将生成性AI的承诺转化为商业成果和转型效果。

下面是一些演讲现场的精彩瞬间：

领导者与一位同事紧密合作，致力于协助客户优化其Amazon SageMaker模型，从而降低成本并提高性能。

在部署机器学习模型的过程中，核心目标在于在保证最低成本和最短延迟的前提下实现最大化的处理能力。

演讲者向大家展示了如何利用Amazon SageMaker在本地或远程轻松地部署机器学习模型。

作为亚马逊云科技的一部分，SageMaker会根据内部的基准测试结果为客户提供所需的实例类型和资源方面的建议。

飞跃目录迅速地为团队提供了可供自行测试和部署的模型。

飞跃目录提供了丰富的模型和容器选项，助力客户快速实施AI服务。

借助SageMaker的CI/CD管道，机器学习模型的部署变得轻松且高效。

总结

视频探讨了在亚马逊的SageMaker平台上部署大型语言模型的策略，旨在实现人工智能应用的最佳性价比。SageMaker为托管低延迟、高吞吐量模型提供了一个强大的平台。该平台提供实时、批量和异步推理等多种部署选择。通过允许多个模型在一个实例上共享计算资源，SageMaker有助于降低成本。它支持比GPU更具成本效益的新型Inf1实例。动态自动扩展只在需要时添加实例。大型模型推理容器采用先进的技术，如模型并行、量化和编译，以优化模型并显著提高性能。SageMaker还简化了生产中滚动模型更新而无需停机的过程。视频展示了如何使用SageMaker JumpStart和SDK轻松部署模型。它演示了针对交互式应用的流式响应。总的来说，与自助服务选项相比，SageMaker可将成本降低50%，因为它处理部署、优化、扩展和合规等繁琐任务。这加速了人工智能应用的价值实现过程。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134813691

想了解更多精彩完整内容吗？立即访问re:Invent 官网中文网站！

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处，一键获取亚马逊云科技全球最新产品/服务资讯！

点击此处，一键获取亚马逊云科技中国区最新产品/服务资讯！

即刻注册亚马逊云科技账户，开启云端之旅！

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁？

亚马逊云科技（Amazon Web Services）是全球云计算的开创者和引领者，自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务，涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体，以及应用开发、部署与管理等方面；基础设施遍及 31 个地理区域的 99 个可用区，并计划新建 4 个区域和 12 个可用区。全球数百万客户，从初创公司、中小企业，到大型企业和政府机构都信赖亚马逊云科技，通过亚马逊云科技的服务强化其基础设施，提高敏捷性，降低成本，加快创新，提升竞争力，实现业务成长和成功。