使用Robinhood扩展安全的大型语言模型

使用Robinhood扩展安全的大型语言模型

关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, Bedrock, Large Language Models, Secure Scaling, Llm Gateway, Model Flexibility, Cost Management]

导读

这个闪电演讲分享了构建在亚马逊云科技上的Robinhood大型语言模型(LLM)平台的设计和技术基础。了解该公司如何使用LLM网关和Amazon Bedrock来实现私密推理,在不牺牲性能的同时保护客户隐私。深入了解Robinhood的架构和运营模式,这使得公司能够扩展其AI能力。听听Robinhood如何利用Amazon Bedrock的安全功能来处理敏感数据,同时遵守不断发展的监管标准。

演讲精华

以下是小编为您整理的本次演讲的精华。

在2024年的亚马逊云科技 re:Invent大会上,亚马逊云科技的解决方案架构师Trevor Spires和Robinhood的任务学习工程师Dolly共同登台,分享了他们在Robinhood如何可靠且安全地扩展大型语言模型的见解。Trevor介绍了本次会议,强调他们在过去六个月的合作,帮助Robinhood在Bedrock上建立了他们的LLM推理平台。他承诺将深入探讨Robinhood的旅程、他们经历的设计迭代、架构以及他们为安全扩展推理而构建的工具。

接着,Dolly接手发言,解释她将带领观众了解Robinhood的AI平台如何通过解决可扩展性和安全性的关键挑战来实现前沿用例。她概述了会议的结构,从平台的使命和塑造它的设计决策开始,探讨LLM网关在提供灵活性和控制方面的作用,最后分享他们在2025年继续扩展和增强基础设施时的目标。

为了提供Robinhood的背景,Dolly解释说,该公司于2013年开创了免佣金交易,并成为首家完全托管在云端的经纪公司。她列举了Robinhood提供的服务,包括经纪、加密货币、联名账户、未来的信用卡和支付卡,强调他们的使命是为所有人提供最直观的用户体验,实现金融民主化。

接下来,Dolly深入探讨了Robinhood的AI和ML平台的使命,她将其描述为简单但雄心勃勃——为终端用户提供强大的AI和ML抽象,同时为高级用户提供高级工具。她强调了他们专注于简化从实验到生产的旅程,并实现快速采用最先进的生成式AI技术,无论是开源、闭源还是自主研发。Dolly透露,他们的平台目前支持各种关键用例,包括欺诈调查、文档处理、代理工作流程、数据分析、语音合成、聊天应用程序和营销内容生成。

为了说明平台的功能,Dolly着眼于欺诈调查用例。她解释说,Robinhood有超过80名欺诈调查员每天手写超过300份案件结论,确保这些叙述的一致性和高质量一直是一个挑战。Dolly描述了工作流程,欺诈调查员会使用前端管理仪表板,记录笔记,准备调查结果,最终完成一份冗长且复杂的解决方案表格。以前,他们必须根据调查结果手动撰写整个叙述,这可能需要半个小时到一个小时。

然而,Dolly透露,Robinhood已经引入了一种由Amazon Bedrock的PoRegent ProCook模式提供支持的解决方案,利用了ClawSonic模型。该模型可以将原始笔记和表格中的关键细节转化为结构化的草稿结论,仅需几秒钟。为防止功能被滥用,Robinhood实施了一些保护措施,例如限制代理在每个浏览器会话中生成叙述的次数,以及仅在对表格进行更改时才激活“生成叙述”按钮。虽然生成的叙述简化了流程,但Dolly强调,鼓励代理手动完善它以确保准确性和完整性。此外,Robinhood还添加了一个反馈循环来持续改进系统,允许代理对生成体验进行1到5分的评分,帮助离线分析性能并确定需要改进的领域。

接下来,Dolly强调了这一用例带来的独特挑战,例如每个请求的提示超过15,000个token,以及在多个代理同时工作时,高峰时段会触及速率限制。这些高需求凸显了他们最初的LLM推理方法的局限性。

Dolly解释说,作为一家金融科技公司,Robinhood由于金融信息的敏感性,受到更严格的数据法规约束。这导致他们最初选择了Amazon Bedrock的Provision Throughput模式,在该模式下,他们以固定成本购买了一个CLaw模型单元。该模式通过将CLaw模型作为专用实例托管,提供了隔离的推理。为进一步增强安全性,Robinhood为Bedrock配置了VPC端点,确保所有流量通过私有链路安全地保留在亚马逊云科技网络内。Dolly阐明,VPC端点允许流量从Robinhood的服务流向Amazon Bedrock,而无需穿越公共互联网,使隔离推理与私有连接的组合成为金融科技用例的理想选择。

尽管有这些优势,但Dolly承认他们在Provision Throughput模式下遇到了一些挑战。首先,可扩展性问题随之而来,因为该模式需要提前承诺固定数量的模型单元,而使用模式可能会快速发展变化,这是一个挑战。Robinhood的运营经常涉及突发流量,内部操作员同时与LLM交互,而考虑到相对固定的每分钟请求限制,很难应对需求激增。

Dolly确定的第二个问题是噪声邻居问题,即一个团队消耗大量容量可能会对共享同一模型单元的其他团队产生负面影响,导致所有团队的性能下降。

回顾他们在Provision Throughput模式下的经验,Dolly分享了三个关键教训。首先,预测流量模式等同于其他模式是一个主要挑战,因为获得最佳定价需要提前六个月承诺模型单元,而流量峰值可能不遵循该模式。其次,获取最新模型会有延迟,因为新的LLM通常会先发布到按需API,而在几个月后才会发布到Provision Throughput模式。这种延迟意味着Robinhood无法立即采用最新的模型,如GPT-3.5,从而限制了他们的创新能力。最后,成本限制和六个月的承诺期限使他们只能为每个模型购买一个模型单元,这使得支持多种模型并允许产品团队随时尝试新模型变得具有挑战性,降低了他们适应不同用例的灵活性。

Trevor插话说,对于他们与许多客户合作的生成式AI应用程序,预测远期需求确实具有挑战性,因为这涉及对人们将多大程度地提示应用程序的假设。他强调,对于像Robinhood这样的创新公司来说,一旦模型发布就能立即获取是至关重要的,这导致了Dolly将要讨论的修订设计。

接着,Dolly透露,在2024年,Robinhood转向使用Amazon Bedrock的按需API,以获得更大的灵活性和可扩展性,并通过0天数据保留协议实现安全性。一个关键改进是更好的跨区域推理,其中FruPo可以在推理配置文件所在的区域内将分配的pro时间加倍。Dolly解释说,在幕后,按需API动态跨多个区域运行流量,以应对高峰需求,无需复杂的客户端负载均衡,确保最佳可用性,降低延迟,并在高使用期间提高弹性。

Trevor补充说,跨区域推理模型提供了几个好处。设计保持不变,通过VPC端点实现的VPC安全性依然完好,但现在Robinhood能够a)一旦模型发布就立即获取,b)针对不同任务在后端利用多个模型,以及c)受益于跨区域推理功能,提供双倍容量,允许为大型语言模型使用更多token。此外,这一功能还支持故障转移用例,在发生区域影响时,允许操作通过优雅且透明地故障转移到备份区域,在亚马逊云科技上继续进行LLM推理。

接下来,Dolly介绍了Robinhood的LLM网关,在他们从Provision Throughput模式无缝过渡到按需API的过程中发挥了关键作用,而不影响任何客户端流量。LLM网关提供了多种优势,包括与各种SDK(如OpenAI、Anthropic和其他开源SDK)兼容。该网关负责将输入转换为提供商的端点,用于完成、嵌入和图像生成,实现无缝集成。它还验证了token大小、图像大小和其他输入参数,以确保请求合规且高效。此外,每个请求和响应都记录在离线Hive表中,提供了强大的审计跟踪,并支持随时间推移进行更深入的分析。这种灵活性使Robinhood的团队能够在他们喜欢的堆栈上构建,同时仍然通过集中式服务访问LLM。

Dolly强调了LLM网关的几个关键组件。第一个是PII减少服务,鉴于Robinhood严格的合规性要求,它可以自动检测并从输入和输出中删除敏感信息。Robinhood在底层使用Microsoft的Presidio API,以确保他们能够利用LLM支持不同用例,同时完全符合数据隐私法规。

第二个重点是备用模型机制。为确保高可用性和连续性,网关支持无缝切换到备用模型的机制,如果主模型发生故障或超出容量限制,就会切换到备用模型。例如,如果某个团队使用OpenAI API,网关通常会切换到LLaMa模型作为备用,而对于ClawSonic,则会切换到Haiku模型,但这些备用选项可由客户团队自行配置。

Dolly强调了模型评估的重要性,她表示网关会记录请求和响应负载,并支持持续的模型评估,使团队能够实时评测其大语言模型的性能、准确性和效率。这确保了团队可以尝试新模型、对其进行微调,并为不同的用例选择最佳性能的选项。

此外,网关会在响应时自动计算每个请求的成本,允许客户团队设置预算并在多个层面(如项目、API密钥或模型)强制执行速率限制。这提供了对使用情况和成本的细粒度控制,确保实时成本检查和精简的资源管理。

Trevor赞赏了LLM网关让开发人员(尤其是从事模型工作的开发人员)可以选择自己的SDK并将其引入环境的能力,为团队解锁了灵活性,可以自带工具和SDK进行构建。他强调这让开发人员能够非常轻松地将现有工作重新部署到像Bedrock这样的安全平台上。

展望2025年,Dolly概述了Robinhood构建一个平台的目标,让团队能够以更大的精度和可靠性更快地创新。首先,他们正在引入内置的模型和提示评估及分析工具,使迭代和优化模型变得更加高效。为确保一致性和合规性,他们正在努力集中管理AI数据治理,为整个平台的数据管理创建统一框架。

接下来,Robinhood正在增强网关,实现动态模型路由和微调选项,确保在正确时间为正确请求提供正确的模型服务。为进一步扩展这些功能,他们正在推出批量推理管道,实现大规模任务的高效处理。

最后,Dolly分享说,Robinhood正在提供一个提示游乐场,让用户可以切换模型、更改生产数据的参数,从而培养创造力和实验精神,创造一个探索和测试想法的空间。

总之,Dolly表示希望Robinhood的历程能帮助观众理解Amazon Bedrock中不同选择的利弊,以及拥有LLM网关的重要性。她感谢观众的关注。

下面是一些演讲现场的精彩瞬间:

Trevor Spires是亚马逊云科技的一位解决方案架构师,他介绍了Dolly,这位reInvent2024演讲的明星,并讨论了Robinhood在Amazon Bedrock上建立其LLM推理平台的历程。

亚马逊云科技推出了一种由Bedrock的PoRegent ProCook模式和ClawSonic模型驱动的解决方案,可以从原始笔记生成结构化的草稿结论,并配有保护措施和持续改进的反馈循环。

Robinhood利用了Amazon Bedrock的Provision Throughput模式和VPC端点,为其CLaw模型提供了安全和隔离的推理,使其成为金融科技应用的理想解决方案。

亚马逊强调了Provision Throughput模式用于AI模型时面临的挑战,包括难以预测流量模式、延迟获取新模型以及成本限制导致的模型多样性和实验受限。

Trevor强调了亚马逊云科技跨区域推理模型为大型语言模型带来的好处,包括立即获取新模型、利用多个模型、双倍容量以及故障转移能力,确保运营不间断。

Robinhood借助LM Gateway无缝过渡到按需API,使团队能够通过集中式服务访问LLM,同时构建在首选堆栈之上。

演讲者强调了新的提示游乐场功能,允许用户在生产数据上尝试不同的模型和参数,促进创造力和创新。

总结

Robinhood的AI平台致力于为开发者提供强大的AI和ML工具,同时推动前沿生成式AI技术的快速采用。他们的旅程始于Amazon Bedrock的Provision Throughput模式,该模式通过VPC端点提供隔离的推理和增强的安全性,但在可扩展性、访问最新模型和成本约束方面面临挑战。

为了解决这些限制,Robinhood转向了Amazon Bedrock的按需API,利用跨区域推理实现更高的灵活性、可扩展性和弹性。他们的LLM网关发挥着关键作用,提供与各种SDK的兼容性、输入验证、用于审计和分析的日志记录、符合合规性的PII减少、高可用性的后备模型以及精细的成本控制。

展望2025年,Robinhood旨在引入模型和提示评估工具、集中AI数据治理、实现动态模型路由和微调、推出批量推理管道,并通过提示游乐场促进创造力。他们的目标是构建一个平台,使团队能够以更大的精度和可靠性更快地创新,同时解决扩展AI和ML的关键挑战。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值