省钱提速新利器:Amazon Bedrock智能提示路由

去年12月,亚马逊云科技宣布推出Amazon Bedrock智能提示路由(预览版),该功能提供了一个单一的Serverless端点,能在同一模型家族内的不同基础模型(FM)之间,高效路由请求。具体而言,Amazon Bedrock智能提示路由会动态预测每个模型对某一请求的响应质量,并根据成本和响应质量,将请求路由到它认为最合适的模型,如下图所示。

近期,Amazon Bedrock智能提示路由功能已正式可用。在过去几个月里,亚马逊云科技根据客户反馈和广泛的内部测试,对智能提示路由功能进行了多项改进,旨在通过Amazon Bedrock智能提示路由及其对每个模型家族中模型行为的深入了解,帮助用户在大语言模型(LLM)之间实现自动化、最优化的路由。该功能融合了针对不同模型集、任务和提示训练路由器的先进方法。

本文将详细介绍内部测试的各种亮点,说明如何开始使用该功能,并为您提供一些注意事项和最佳实践。亚马逊云科技鼓励您将Amazon Bedrock智能提示路由功能,集成至您新构建和现有的生成式AI应用中。

功能亮点与改进

现在,您既可以使用Amazon Bedrock提供的默认提示路由,来使用Amazon Bedrock智能提示路由功能;也可自行配置提示路由,以便在两个候选LLM的性能之间实现线性调整。

对于每个模型系列,Amazon Bedrock都提供了默认提示路由。这是一种预先配置好的路由系统,它能够将任务映射到性能更优的模型上,同时通过将较简单的提示词发送给成本更低的模型来降低成本。这些路由配有预定义设置,设计为开箱即用,可与特定的基础模型配合工作。它们提供了一种简单易用的解决方案,无需配置任何路由设置。

在预览阶段,用户仅可选择Anthropic和Meta模型系列中的模型。而如今,用户可在Amazon Nova、Anthropic和Meta模型系列中选择更多模型,包括以下模型。

1.Anthropic的Claude系列:Haiku、Sonnet3.5 v1、Haiku 3.5、Sonnet 3.5 v2。

2.Llama系列:Llama 3.1 8B、70B、3.2 11B、90B和3.3 70B。

3.Amazon Nova系列:Amazon Nova Pro和Amazon Nova lite。

您还可以自行配置提示路由,以定义契合特定需求和偏好的路由配置。当您需要对请求的路由方式以及所使用的模型进行更多控制时,这些自定义路由配置会更加适用。在GA中,您可以从同一模型系列中任选两个模型,然后配置路由器的响应质量差异,从而完成自定义路由器的配置。

在利用原始提示词调用选定的LLM之前添加组件,可能会增加额外开销。亚马逊云科技将所添加组件造成的额外开销降低了20%以上,降至约85毫秒(P90)。由于路由机制会优先调用成本较低的模型,同时使任务中的基准准确率保持不变,因此尽管会增加开销,但与总是调用更大或更贵的模型相比,您仍有望获得降低整体延迟和成本方面的优势,下文基准结果部分将进一步讨论这个问题。

亚马逊云科技使用专有数据和公开数据进行了多项内部测试,以评估Amazon Bedrock智能提示路由的各项指标。

首先,采用在成本约束下的平均响应质量增益(ARQGC)这一归一化的(0–1)性能指标,用于衡量在不同成本约束下的路由系统质量。该指标以奖励模型为参照,其中0.5表示随机路由,1表示最佳Oracle路由性能。

此外,计算了与使用模型系列中的最大模型相比,智能提示路由所能节省的成本,并根据首次输出token的平均记录时间(TTFT)估算延迟方面的优势,并将这些结果汇总在下表中。

解读表格结果

理解上表中的指标颇有必要。

1.上表所展示的结果仅用于与模型系列内部的随机路由进行比较(即ARQGC超过0.5的改进),而非跨系列比较。

2.这些结果仅在特定模型系列内部具有相关性,与您可能熟悉的其他用于比较不同模型的基准测试指标不同。

3.由于实际成本和价格频繁变动,且取决于输入和输出的tokens数量,因此比较实际成本颇具挑战性。为解决这一问题,将成本节省指标定义为:与最强LLM的成本相比,路由器实现特定响应质量水平所能节省的最大成本。具体而言,在上表示例中,与对所有提示词均使用Amazon Nova Pro模型(而不使用路由器)相比,使用Amazon Nova系列路由器平均可节省成本35%。

根据您的具体使用场景,您可能会获得不同程度收益。例如,在一项涉及数百个提示词的内部测试中,使用Amazon Bedrock智能提示路由技术搭配Anthropic模型系列,实现成本节省60%,同时响应质量与Claude Sonnet3.5 V2不相上下。

响应质量差异

响应质量差异用于衡量备用模型与其他模型响应之间的差异程度。该差异值越小,表示备用模型与其他模型的响应越相似。数值越大,则表明备用模型与其他模型的响应存在显著差异。

因此,选择合适的备用模型至关重要。例如,当将Anthropic的Claude 3 Sonnet设为备用模型,并配置响应质量差异为10%时,路由器会动态选择一个LLM,以实现整体性能在响应质量上仅比Claude 3 Sonnet下降10%。相反,如果使用Claude 3 Haiku等成本较低的模型作为后备模型,路由器则会动态选择一个LLM,以实现整体性能在响应质量上相较Claude 3 Haiku提升超过10%。

如下图所示,以Haiku作为备用模型,响应质量差异设置为10%。如果客户希望探索超出前文所述默认设置的最佳配置,也可以尝试不同的响应质量差异阈值,在其开发数据集上分析路由器的响应质量、成本和延迟情况,然后选择最契合其应用需求的配置。

在配置自有提示词路由时,您可在Amazon Bedrock控制台的“配置提示词路由”页面的“响应质量差异(%)”部分,设置响应质量差异阈值,如下图所示。若要通过API来完成此操作,请参阅《如何使用智能提示词路由》。

《如何使用智能提示词路由》

https://docs.aws.amazon.com/bedrock/latest/userguide/prompt-routing.html#prompt-routing-use

基准测试结果

在使用不同的模型组合时,较小模型处理大量输入提示词的能力,将在降低延迟和成本方面带来显著优势,具体取决于模型的选择以及使用场景。

例如,在比较使用Claude 3 Haiku与Claude 3.5 Haiku以及Claude 3.5 Sonnet几种情况时,可通过内部数据集观察到以下现象。

案例1

在Claude 3 Haiku与Claude 3.5 Sonnet V2之间进行路由:成本节省48%,同时保持与Claude 3.5 Sonnet V2相同的响应质量。

案例2

在Claude 3.5 Haiku和Claude 3.5 Sonnet V2之间进行路由:成本节省56%,同时保持与Claude 3.5 Sonnet v2相同的响应质量。

基于上述案例1和案例2可以发现,随着同一系列中价格较低的模型相对于价格较高的模型(例如从Claude 3 Haiku升级到3.5 Haiku),其功能不断增强,可预期这些价格较低的模型能够更可靠地解决更复杂的任务。因此,在保持任务总体准确率不变的情况下,会有更高比例的任务被路由到价格较低的模型上。

由于测试结果可能因情况而异,因此鼓励您根据自身特定任务和具体领域,测试Amazon Bedrock智能提示路由的有效性。

例如,使用开源和内部的检索增强生成(RAG)数据集,测试Amazon Bedrock智能提示路由时,可发现平均成本节省63.6%。这是因为在RAG数据集上的平均测试中,有更高比例(87%)的提示词被路由到了Claude 3.5 Haiku模型,同时仍能保持更大或更贵的模型(如下图中所示的Sonnet 3.5 v2)所能达到的基线准确率。

开始使用

您可以通过亚马逊云科技管理控制台,开始使用Amazon Bedrock智能路由提示功能。如前文所述,您可以创建自有路由或使用默认路由。

使用控制台配置路由

1.在Amazon Bedrock控制台中,在导航窗格选择“提示路由”,然后选择配置“提示路由”。

2.随后,您可在基于控制台的测试环境中,使用之前已配置好的路由或默认路由。例如,上传一份来自Amazon.com的10K文档,并提出关于销售成本的具体问题,如下图所示。

3.点击位于刷新图标旁边的路由指标图标,查看请求被路由到的具体模型。由于该问题较为细致,因此在该情况下,Amazon Bedrock智能提示路由正确将其路由到Claude 3.5 Sonnet V2模型,如下图所示。

您还可以使用Amazon Web Services CLI或API来配置和使用提示路由。

使用Amazon Web Services CLI

或API配置路由

Amazon Web Services CLI:

aws bedrock create-prompt-router \    --prompt-router-name my-prompt-router\    --models '[{"modelArn": "arn:aws:bedrock:<region>::foundation-model/<modelA>"}]'    --fallback-model '[{"modelArn": "arn:aws:bedrock:<region>::foundation-model/<modelB>"}]'    --routing-criteria '{"responseQualityDifference": 0.5}'

左右滑动查看完整示意

Boto3 SDK:

response = client.create_prompt_router(    promptRouterName='my-prompt-router',    models=[        {            'modelArn': 'arn:aws:bedrock:<region>::foundation-model/<modelA>'        },        {            'modelArn': 'arn:aws:bedrock:<region>::foundation-model/<modelB>'        },    ],    description='string',    routingCriteria={        'responseQualityDifference':0.5    },    fallbackModel={        'modelArn': 'arn:aws:bedrock:<region>::foundation-model/<modelA>'    },    tags=[        {            'key': 'string',            'value': 'string'        },    ])

左右滑动查看完整示意

注意事项和最佳实践

在Amazon Bedrock中使用智能提示路由时,请注意以下事项。

1.Amazon Bedrock智能提示路由针对典型聊天助手使用案例的英语提示词进行了优化。若要使用其他语言或自定义用例,请在生产应用程序中实施提示路由之前,自行进行测试,或联系您的亚马逊云科技账户团队,以获得设计和开展相关测试的帮助。

2.您仅能选择两个模型纳入路由配置(即进行成对路由),且必须指定其中一个模型作为备用模型,同时两个模型必须位于同一亚马逊云科技区域。

3.初次使用Amazon Bedrock智能提示路由时,建议您先尝试使用Amazon Bedrock提供的默认路由进行实验,然后再尝试配置自定义路由。使用默认路由进行实验后,您可以根据您的使用场景需求自行配置路由,在测试环境中评估响应质量,如果这些路由满足您的要求,即可将其用于生产应用程序。

4.目前,Amazon Bedrock智能提示路由无法根据特定应用程序的性能数据,来调整路由决策或响应,并且可能无法始终为独特、专业或特定领域的应用案例提供最理想的路由方案。如需针对特定用例进行定制化帮助,请联系您的亚马逊云科技账户团队。

总结

本文介绍了Amazon Bedrock智能提示路由功能,重点探讨了其通过在不同FM之间动态路由请求,帮助优化响应质量和降低成本的能力。

基准测试结果表明,该功能在保持高质量响应和降低跨模型系列延迟的同时,还能显著节约成本。无论您是实施预配置的默认路由器,还是创建自定义配置,Amazon Bedrock智能提示路由都能为生成式AI应用提供平衡性能和效率的强大方式。

您在工作流中应用该功能时,建议测试其针对特定用例的有效性,以充分利用其提供的灵活性。要开始使用,请参阅《了解Amazon Bedrock中的智能提示路由》。

《了解Amazon Bedrock中的智能提示路由》

https://docs.aws.amazon.com/bedrock/latest/userguide/prompt-routing.html

本篇作者

Shreyas Subramanian

首席数据科学家,通过使用生成式AI和深度学习,来帮助客户利用亚马逊云科技服务解决业务挑战。Shreyas在大规模优化和机器学习领域拥有丰富经验,并擅长使用机器学习和强化学习加速优化任务。

Balasubramaniam Srinivasan

亚马逊云科技的高级应用科学家,致力于研究生成式AI模型的训练后优化方法。他热衷于将特定领域的知识和归纳偏置融入机器学习模型中,以提升客户体验。

Yun Zhou

亚马逊云科技的应用科学家,协助开展研发工作,以确保亚马逊云科技的客户取得成功。他致力于利用统计建模和机器学习技术,为多个行业开拓创新解决方案。他热衷生成式模型和序列数据建模等领域。

Haibo Ding

亚马逊云科技机器学习解决方案实验室的高级应用科学家。他对深度学习和自然语言处理有着广泛兴趣。他的研究专注于开发新的可解释机器学习模型,旨在使这些模型在解决实际问题时更高效、更可信。

星标不迷路,开发更极速!

关注后记得星标「亚马逊云开发者」

听说,点完下面4个按钮

就不会碰到bug了!

点击阅读原文查看博客!获得更详细内容!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值