在Roblox中为数百万用户扩展生成式AI模型

在Roblox中为数百万用户扩展生成式AI模型

关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, Roblox AI API suite, Generative Ai Models, Millions Of Users, Roblox Ai Api, Training And Inference, Amazon Deep Learning Containers]

导读

Generative AI是创新的前沿领域,但在大规模构建和运营时可能具有挑战性。了解大型在线元宇宙平台Roblox如何识别并形成其生成式AI应用的用例。深入探讨Roblox如何集成亚马逊云科技服务,如亚马逊云科技深度学习容器、Amazon EKS和Amazon EC2 UltraClusters,以快速扩展机器学习基础设施。了解解决方案架构、训练和服务环境、计算编排以及机器学习应用开发SDK。获取最佳实践见解,以加快开发速度并提高大规模多节点分布式工作负载的模型训练效率,为数百万用户提供服务。

演讲精华

以下是小编为您整理的本次演讲的精华。

在广阔的数字世界Roblox中,一个超越了单纯游戏界限的平台,一群有远见的团队着手利用生成式人工智能(AI)的变革力量。他们的使命是提升数以百万计用户的体验,并前所未有地赋能250万创作者。在这一雄心勃勃的努力的前沿,站着Roblox的高级技术总监Ivan Marson,他的见解将阐明这一突破性整合所面临的复杂挑战和创新解决方案。

Roblox作为用户创造独特体验的画布,拥有惊人的530万个用户创建的体验。从充满可能性的Roblox工作室SDK工具包,到在多种设备上赋予这些创作以生命的Roblox客户端,该平台的基础设施是一曲创新交响乐。其核心是Roblox云,一个混合生态系统,内部服务器编排游戏逻辑的复杂舞蹈,而Amazon EC2实例(尤其是GPU计算集群)则为推动平台智能的AI推理工作负载提供动力。

随着每日活跃用户数量在高峰时达到惊人的7900万,将AI整合到Roblox中远不止是简单的聊天机器人。它渗透到平台的方方面面,从通过语音审核和头像监控来确保安全,到通过代码辅助和纹理生成来增强创作者体验。推荐、搜索功能和无数其他功能都融入了AI的力量,将用户体验提升到前所未有的高度。

为了让250万创作者和高峰时7900万日活跃用户受益于AI能力,Roblox推出了Roblox AI API套件,这是一个突破性平台,为无缝集成到用户创建的体验中提供了API。其中一个API是实时翻译功能,允许开发者动态翻译游戏内聊天和内容,打破语言障碍,培养真正的全球社区。这个API诞生于超越最初仅翻译静态资产能力的需求,使开发者能够将动态翻译集成到他们的体验中,满足不断演进的用户生成内容的需求。

然而,将这一创新扩展到数百万创作者和用户时,出现了一个新的挑战——“负载倍增”效应。使用量随着创作者数量、用户数量和API调用频率的增加而呈指数级增长。例如,单个体验的并发用户可能从数十万激增到数百万,从而引发对AI服务需求的激增。这一现象带来了复杂性,需要创新的解决方案。

为了应对这一挑战,Roblox构建了一个强大的AI平台架构,能够支持训练和推理工作负载。利用Kubeflow、BennANANA、Ray和自定义组件等工具,他们编排了数据管理、实验跟踪、成本归属和可观察性的交响乐。该架构的核心是推理网关,一个强大的组件,可以无缝地将请求路由到不同的云提供商、开源模型或Roblox内部GPU集群,确保透明度和灵活性。

Roblox面临的一个关键挑战是以经济高效的方式混合不同的推理提供商,如云API和开源模型。他们发现,对于某些用例,开源模型可以将成本降低90%,有时甚至接近10%,与云提供商相比具有显著的成本优势。推理网关在这一努力中发挥了关键作用,实现了无缝切换提供商和模型,使Roblox能够优化资源利用,同时保持高质量性能。该网关抽象了不同推理引擎、参数和模型版本的复杂性,为开发者提供了统一的界面,使他们能够轻松地试验和部署各种AI解决方案。

然而,评估模型在生产用例中的质量是一项艰巨的任务。现有的学术基准测试如MMLU和ChatGPT arena虽然有价值,但无法准确反映Roblox数据的细微差别。不屈不挠的团队着手从生产日志中构建自己的评估数据集,确保他们的模型经受了现实场景的严格测试。这涉及人工标注、利用GPT-4作为评判者,以及整合斯坦福大学的HELM框架等技术,通过自定义数据集扩展评估过程。

另一个关键挑战来自于在利用云GPU时需要处理规模和容量限制。Roblox在新体验推出时遇到了“雷声般的蜂拥”需求高峰,需要一个动态且有弹性的解决方案。有一次,GPU集群的利用率在短短几天内从接近零飙升至满负荷,促使他们疯狂地争取额外资源。他们的答案是跨异构集群的负载溢出——一场由预置、自动扩展、量化集群和云提供商故障转移组成的交响乐,全部通过推理网关编排。这种方法确保资源得到高效分配,并满足需求,而不会影响性能或用户体验。

认识到资源优化的重要性,Roblox实施了通过批处理技术来密集GPU利用率的策略。通过结合在线和离线批处理请求,他们取得了显著成果,在某些情况下将利用率从仅20%提高到了80-200%。这不仅最大限度地发挥了GPU资源的潜力,而且在大规模运营时也大大提高了成本效率。Roblox利用亚马逊云科技的Ray进行离线批量推理,与团队密切合作,确定可以批处理的工作负载,而不会影响实时性能要求。

在追求运营卓越的过程中,Roblox采用了亚马逊云科技深度学习容器的强大功能,这个工具减轻了管理异构GPU类型的不同软件版本、驱动程序和配置的负担。这种精简的方法减少了版本管理带来的工作量,使团队能够集中精力推动创新,提供卓越的体验。亚马逊云科技深度学习容器提供的预烘焙AMI封装了整个软件栈,包括PyTorch、NVIDIA GPU内核和经过测试的驱动程序,大大减少了更新和维护所需的时间和精力。

当Ivan Marson回顾这段变革性旅程时,几点关键见解浮现出来:

1)开源模型的质量正在迅速赶上,它们节省成本的潜力是不可否认的,在Roblox内部基准测试中,有些模型的得分接近托管解决方案,尽管在MMLU等学术评分标准上可能存在缺陷。然而,了解和缓解它们在特定用例中的缺陷至关重要,以发挥它们的全部潜力。

2)跨模型、集群和推理引擎进行版本管理是一项复杂的工作,需要强大的工具和流程来减少运营工作量。在某个时候,Roblox发现自己陷入了GPU类型、机器配置和软件版本的迷宫,这凸显了简化这一方面的重要性。

3)通过批处理和负载溢出来密集集群是实现大规模成本效率的关键策略,确保资源得到优化,并满足需求,而不会影响性能。通过结合在线和离线批处理技术,Roblox能够将GPU利用率从仅20%提高到80-200%。

4)评估模型在现实生产用例中的性能和质量仍然是一个未解决的挑战。构建能够准确反映平台数据细微差别的自定义评估数据集,对于确保最高质量和可靠性标准至关重要。Roblox发现,现有的学术基准测试如MMLU和ChatGPT arena虽然有价值,但无法完全捕捉他们生产用例的复杂性。

当会议接近尾声时,Ivan Marson邀请大家深入探讨Roblox的AI之旅,让与会者有机会参与讨论并寻求更多见解。前路已经清晰:继续推进可能性的边界,让创作者和用户受益于生成式AI的变革力量,以前所未有的方式塑造数字体验的未来。

在Roblox这片想象力无限的数字领域,AI的整合开启了一个新的可能性时代。通过不懈追求创新、坚定不移地赋能创作者,以及无缝融合Amazon EC2、Kubeflow、BennANANA、Ray和亚马逊云科技深度学习容器等尖端技术,Roblox巩固了其在数字体验领域的先锋地位。当Ivan Marson的见解在创新殿堂回荡时,一个事实变得无比清晰:生成式AI的无限潜力将塑造Roblox及其所赋能的世界的未来。

下面是一些演讲现场的精彩瞬间:

演讲者阐述了在Roblox平台上为数百万用户扩展生成式AI的主题。

b285c974c87735ca47ebe2b6dd7b9382.png

Roblox的网关架构能够无缝集成多个AI模型和提供商,为开发者提供了跨多种语言和平台的统一接口。

378a7aab2048c5d8623a1e29e6c8694f.png

演讲者坦率地透露了扩展GPU集群以满足不可预测的需求高峰所面临的挑战,展现了在有限的按需容量下所需的机智和决心。

60fa751c146f492529ae05c1713c8c7b.png

亚马逊云科技通过异构集群和智能路由重新定义了负载均衡,实现了跨不同用例的高效扩展。

14e3f0cbf8dcf4b5df4e90d77547ce71.png

在reInvent2024大会上,演讲者强调,吞吐量,即以最经济的方式为尽可能多的并发用户提供服务的能力,是他们生产环境的首要任务,即使这意味着性能略有下降。

c5faee528f94b5210a65f1c1d50f0293.png

演讲者讨论了降低AI系统延迟的策略,例如预热或使用填充响应来掩盖生成实际响应时的延迟。

819ed828e4aa5a607c7cd530f9de3511.png

演讲者强调,虽然性能和质量仍然具有挑战性,但在这些领域有着可喜的进展,构建定制评估数据集可以极大地改善生产用例。

ba62f8a8fd3da0e7812d39bb03d98848.png

总结

在这个引人入胜的叙述中,我们深入探讨了Roblox在前所未有的规模上为数百万用户集成生成式人工智能模型的开拓性历程。故事从Roblox的高级技术总监Ivan Marson分享他们的人工智能应用程序接口套件的见解开始,该套件无缝地将人工智能功能集成到Roblox平台中。

Roblox面临的一个关键挑战是管理为他们250万开发者和7900万日活跃用户提供人工智能工具时产生的指数级负载倍增。为了解决这个问题,他们开发了一种网关架构,抽象了不同推理引擎、模型和版本的复杂性,使开发者能够轻松地在提供商和开源模型之间切换。

Roblox追求成本效益,导致他们采用了像LAMA这样的开源基础模型,与托管提供商相比,这为他们节省了大量成本。然而,这种转变需要严格的模型评估流程来确保质量和性能。Roblox发现传统的学术评估数据集如MMLU和ChatGPT竞技场可能无法准确反映他们的生产用例,促使他们构建自己的评估数据集,这些数据集源自真实的推理数据。

为了解决容量限制并应对负载高峰,Roblox实施了负载溢出技术,动态地在异构集群之间路由流量。他们还通过批处理策略优先考虑集群密集化,最大限度地提高资源利用率和成本效益。利用亚马逊云科技深度学习容器有助于减轻管理不同模型版本和依赖项带来的运营负担。

随着Roblox继续推进大规模生成式人工智能的发展,他们汲取了宝贵的经验教训。开源模型的质量正迅速赶上商业解决方案,使用透明度变得至关重要。版本管理和集群密集化对于运营效率至关重要。最后,评估性能和质量仍然是一个艰巨的挑战,但构建量身定制的评估数据集以满足生产用例的需求已被证明是非常有价值的。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值