关键字: [Amazon Web Services re:Invent 2023, Gondola, Machine Learning Platform, Model Hosting, Inference, Sagemaker Integration, Multimodal Endpoints]
本文字数: 1400, 阅读完需: 7 分钟
视频
如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV18a4y1R78d
导读
由于 Amazon SageMaker 等工具和 Datadog 等公司,机器学习领域正在以前所未有的速度增长和进步。今天的组织正在研究他们自己的挑战和雄心壮志,以建立机器学习团队,并为工程师和建模人员配备帮助解决业务问题的工具。在本论坛中来自 Cash App 的 James Adams和来自 Datadog 的 Jason Hand 介绍了 Cash 应用程序的机器学习平台,并分享了在您自己的项目中促进类似采用的关键见解。在这篇关于真实世界机器学习工具如何帮助现代开发人员和组织的文章中,探索复杂的策略、潜在的陷阱等。本演示文稿由亚马逊云科技合作伙伴Datadog 提供。
演讲精华
以下是小编为您整理的本次演讲的精华,共1100字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。
演讲由来自Cash App机器学习团队的James发起,探讨了他们如何建立内部机器学习平台并与亚马逊云科技的SageMaker集成。他首先介绍了Cash App这个金融应用,月活跃用户超过1000万,让任何人都能轻松发送、消费或投资股票或比特币。
在2022年初,James加入了Cash App支持ML团队,致力于将机器学习应用于改进每月超过10万客户的客户服务体验。在过去的一年里,他们一直在利用公司的现有基础设施来扩展其机器学习服务,该基础设施包括了通过gRPC、HTTP、事件流和Kafka事件总线通信的100多种不同服务。然而,他们目前面临的最大挑战是模型托管,这对于他们希望用于自然语言处理的更大基于转换器的模型来说是一个障碍。
James解释道,他们现有的基于Kubernetes的模型托管解决方案的p90延迟超过800ms。这意味着最慢的10%的请求需要超过800毫秒,这对于他们实时的应用场景(对传入的支持票证进行分类)来说是不可接受的。此外,他们缺乏对系统的可观察性,无法确定性能问题的来源。另外,无论他们如何优化模型,都会有不可避免的100-150ms的开销延迟,这限制了性能。
为了解决这些问题,团队为他们理想的新解决方案列出了需求。他们希望找到一个稳定且具有弹性的解决方案,能够提供99.95%的可用性,没有任何停机时间,以支持他们关键的客户服务应用程序。它还需要具有良好的可观察性,以便他们可以识别并解决潜在的问题。此外,他们希望某个解决方案尽可能简单,以便所有团队成员都能够理解和根据需要进行故障排除。最后,他们希望将其部署在亚马逊云科技中,以帮助减少开销延迟。
在研究了各种托管解决方案,如Google Cloud和Microsoft Azure之后,SageMaker最终满足了一切需求。压力测试表明,它可以处理他们预期的流量,最高可达每秒5000次请求,同时保持稳定的低延迟。实际上,它与他们的需求如此完美地契合,简直令人难以置信。
然而,一个尚未解决的问题是如何将SageMaker切实地整合到他们现有超过100个横跨多个云的服务生态系统中。詹姆斯展示了Cash App服务的多样性,包括专门的机器学习系统、用Java和Kotlin构建的产品服务,以及通过gRPC、HTTP和事件流进行通信的混合服务。他解释道,机器学习团队由4至6名成员组成,包括机器学习工程师和模型师。模型师主要负责训练和包装模型,选择合适的架构并进行优化以实现最佳性能。工程师则负责构建周边的数据管道、服务和产品集成,同时保持在线推理的运行。然而,这些角色在某种程度上是相互重叠的。
针对Cash App复杂的生态系统,团队在何处引入SageMaker的问题上存在争议。可能的选项包括:
- 现有的机器学习服务
- 为SageMaker设立的新服务
- 现有的非机器学习服务
- 其他团队建立的服务
与此同时,另一个机器学习团队已经创建了名为Gondola的新服务,该服务可以在Kubernetes上部署容器化的Python模型,p99延迟低于10ms。尽管起初只是一个副业,但Gondola作为对遗留系统的轻量级替代方案,在整个组织中引起了关注,用于即兴和快速的实验。
支持机器学习团队看到了与Gondola合作的机会,并直接将他们的SageMaker集成构建到Gondola中,这与另一个团队的旨在解决所有Cash App托管问题的目标相一致。这使得他们将业务范围扩展到了不仅仅是支持机器学习。詹姆斯指出,集中化外部平台集成可以减少供应商锁定,将构建与购买的决定转变为“在购买之上构建一个薄的层”。
在背景内容介绍完毕后,詹姆斯转而分享了他们在构建ML平台时所获得的一些关键经验和解决方案。他强调,这不仅仅是一个单一的服务,而是包括所有工具和能力,使他们的机器学习团队能够在从训练到生产的整个过程中快速、准确和愉快地运作。
詹姆斯概述了他们平台上典型的机器学习模型生命周期:
- 训练模型:Cash App在训练过程的末尾设计了简化模型包装的工具。这包括一个Python库和一个用于附加配置如特征查找、插补值和MLOps谱系的gondola.json元数据文件。
部署模型:SageMaker被用于将模型部署到单一模型和多模型终点。后者能够更有效地利用硬件资源来应对可能每秒1到1000个请求的不定时、不可预测的工作负载。这些都被抽象为“部署目标”,使得用户无需深入了解SageMaker的专业知识。
-
调用模型:各种服务都会调用Gondola进行推理,这将请求代理到正确的SageMaker中的模型服务器和实例。一个名为Homogenate的反向代理会在外部和内部请求格式之间进行转换,同时添加可观察性。
-
监控模型:通过自定义DataDog仪表板,可以监控系统状况、模型负载、异常等,既针对平台也针对最终用户。应用程序性能监控会沿着每个调用路径的5-10个服务追踪长请求尾。
-
扩展模型:单一模型终点可以根据需要进行垂直扩展,拥有60-100 GB内存的大模型。由于模型具有类似的16-32 GB内存需求,多模型终点可以进行水平扩展。Gondola可以扩展以处理峰值时的每秒超过2000个请求。
-
发布模型:模型版本的升级和降级直接在平台上完成,包括用1%的流量对新模型进行金丝雀测试。
在整个过程中,James强调将内部团队视为客户的重要性,设定预期,提供优秀的文档,并在需要时提供帮助。他建议将工作与多个团队而不是孤立的项目保持一致。虽然他们努力使标准路径尽可能无缝,但团队仍然可以以灵活、定制的方式使用该系统。
总之,James总结说,识别跨团队的重叠需求,抽象掉不必要的复杂性,并为机器学习的生命周期中的独立阶段构建工具,使他们能够在Cash App成功扩展机器学习。他们的ML平台现在为10多个应用ML团队提供服务,处理数千个每秒请求到数百个高性能和高可靠性的模型。
总的来说,这个大幅扩展的叙事摘要涵盖了演讲者演示中的关键观点,同时保留了演讲者的核心技术细节,避免了不必要的夸张。如果您希望我进一步修改或丰富摘要,请告诉我。
下面是一些演讲现场的精彩瞬间:
詹姆斯感谢观众能抽出时间在Cash App举办的关于机器学习的演讲中参加,尽管他们在前面的演讲中可能已经筋疲力尽。
领导者们讨论了在整个AI技术栈中监控服务的必要性,以实现全面的可观察性。
亚马逊云科技的领导者分享了他们的团队是如何利用性能监控来诊断高流量平台中存在的问题的。
为了应对增长的交通和需求,领导者们强调了一种有效的方法——通过使用SageMaker水平和垂直地扩展机器学习模型。
领导者们强调了像对待外部客户一样对待内部客户的重要性,要管理好他们的期望,提供详细的文档,并随时为他们提供帮助。
通过让平台变得比编写自己的集成更容易使用,从而提供更出色的体验。
总结
这段演讲主要讨论了在Cash App建立机器学习平台和团队的相关问题。从2022年初Cash App现有的机器学习基础设施背景出发,演讲者详细介绍了他们在解决模型托管、延迟和性能问题方面的探索过程。在经过一系列尝试后,他们认为SageMaker解决方案较为理想,但仍需解决集成问题。最终,他们与其他团队展开合作,共同开发了一个名为Gondola的服务,用于在Kubernetes上部署模型。通过将SageMaker集成到Gondola中,他们可以专注于解决整个Cash App团队的托管问题,而非仅关注单一团队。这种供应商特定复杂性的抽象化将有助于减少锁定和开销。演讲者还介绍了其平台上模型的生命周期管理方法,包括提供Python库以方便元数据的打包和配置,以及针对稳定和零星流量的部署策略。此外,他们还实现了无缝的模型版本升级和降级功能。为了确保平台的健康和模型性能,他们实施了监控系统,并为内部平台团队和模型所有者提供了仪表盘和警报。同时,应用性能监控有助于识别分布式服务的异常情况。自动扩展功能则有助于调整基础设施规模。最后,演讲者强调了要将内部平台用户视为客户,提供丰富的文档、可用性和协调路线图,以实现各团队的最大影响力。总结来说,关键收获在于寻找各团队之间的重叠之处,为用户解决复杂问题,并提供简单、集成的体验。
演讲原文
https://blog.csdn.net/just2gooo/article/details/134814614
想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
2023亚马逊云科技re:Invent全球大会 - 官方网站
点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!
点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!
即刻注册亚马逊云科技账户,开启云端之旅!
【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”
亚马逊云科技是谁?
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。