RouteLLM:以降低 80% 的成本实现 90% 的 GPT-4 质量

RouteLLM:以降低 80% 的成本实现 90% 的 GPT-4 质量

img图片来自X 上的Sam Witteveen让我介绍一下 RouteLLM,这是来自 lmsys.org 的一个创新项目,旨在将运行大型语言模型 (LLM) 的成本显著降低多达 80%,同时保持 95% 的 GPT-4 质量。RouteLLM 是一个为经济高效的 LLM 路由而设计的开源框架,使用较小的开源模型实现高质量的结果。关键亮点平衡成本和性能:RouteLLM 有效地平衡了成本和性能,以极低的成本提供接近 GPT-4 的质量。优化系统:该框架使用较小的开源模型和代理系统,由编排层管理,以优化质量、效率、成本、隐私和安全性。本地计算:大部分计算都被推送到手机和计算机等本地设备,只有必要的查询才会路由到更昂贵的模型,例如 GPT-4。面向未来:随着法学硕士 (LLM) 的进步,更多的任务可以在本地处理,从而降低总体成本。img图片来自 lmsys.orgRouteLLM 将彻底改变 LLM 的部署方式,使其更易于访问且更具成本效益,同时保持高性能。该项目的开源性质允许进一步开发和集成到各种应用程序中,标志着人工智能的重大进步。使用 RouteLLM 进行高效查询处理本地模型可以有效处理 90–95% 的查询,从而减少了对最复杂的 5–10% 查询使用 Claude 或 ChatGPT 等更昂贵模型的依赖。LLM 路由提供了一种有效的解决方案,它首先通过一个系统处理每个查询,该系统确定应该由哪个 LLM 来处理该查询,从而确保可管理的查询在本地路由,在保持响应质量的同时最大限度地降低成本。RouteLLM 框架RouteLLM 是一个基于偏好数据的 LLM 路由原则框架,解决了准确路由查询的挑战。该框架涉及:推理:确定传入查询和模型能力的特征。训练:使用公共数据训练四种不同的路由器,在不影响质量的情况下显著降低成本。性能指标MT Bench:成本降低85%以上。MLU:成本降低了45%。GSM AK:实现了35%的成本降低。所有基准测试均保持了 GPT-4 95% 的性能。RouteLLM 的评估和结果实验装置img图片来自 lmsys.org使用的模型:GPT-4 作为强模型,Mixtral 8x7B 作为弱模型。基线:使用随机路由器作为比较的基线。基准评估使用三个流行的基准来评估 RouteLLM 框架的性能:MT Bench、MMLU 和 GSM8K。评估重点关注 GPT-4 Turbo 作为强模型与 Mixtral 8x7B 作为弱模型之间的路由,使用随机路由器作为比较基线。img图片来自 lmsys.orgMT 基准测试结果MT Bench 上的路由器性能****仅 Arena 数据:仅在 Arena 数据集上进行训练时,矩阵分解和相似性加权 (SW) 排名路由器均表现出色。矩阵分解路由器仅使用 26% 的 GPT-4 调用就实现了 95% 的 GPT-4 性能,与随机基线相比,成本降低了 48%。增强数据:使用 LLM 判断器增强 Arena 数据可显著提高所有路由器的性能。在这种情况下,矩阵分解路由器仅用 14% 的 GPT-4 调用就实现了 95% 的 GPT-4 性能,比随机基线便宜 75%。MMLU 结果img图片来自 lmsys.orgMMLU 上的路由器性能仅限 Arena 数据:在 MMLU 上,由于大多数问题都具有分布不均的性质,因此仅在 Arena 数据上进行训练时路由器的表现不佳。增强数据:使用来自 MMLU 验证拆分的黄金标签数据增强数据集可带来显著改进。性能最佳的因果 LLM 路由器仅需 54% 的 GPT-4 调用即可实现 95% 的 GPT-4 性能,与随机基线相比,成本降低了 14%。值得注意的是,这一改进仅通过 1500 个额外样本实现,证明了即使使用小型数据集,数据增强也具有很高的有效性。与商业产品的比较img图片来自 lmsys.orgimg图片来自 lmsys.orgRouteLLM 与商业系统RouteLLM 在 MT Bench 上与商业路由系统 Martian 和 Unify AI 进行了比较。性能和成本:使用 GPT-4 Turbo 和 Llama 2 70B 或 Mixtral 8x7B,RouteLLM 路由器实现了与这些商业系统类似的性能,但便宜了 40% 以上。推广到其他模型imgMT Bench 上的泛化为了测试普遍性,在 MT Bench 上使用不同的模型对(Claude 3 Opus 和 Llama 3 8B)对 RouteLLM 进行了评估,而无需重新训练路由器。结果:路由器保持了强劲的性能,与原始模型对评估相当。这表明 RouteLLM 的路由器可以有效地概括,即使使用新的、未见过的模型对,也可以区分强模型和弱模型。因此,RouteLLM 在多个基准和不同模型对中的评估证明了其强大的性能、显著的成本节省以及无需重新训练即可进行推广的能力。该框架使用数据增强和偏好数据训练方法确保高质量的响应,同时优化成本,使其成为高效部署 LLM 的宝贵工具。**

令人兴奋的福利

降低成本**:降低使用 LLM 的成本可减少能源消耗,使 AI 更易于访问,并使更多应用程序能够以创新方式利用 AI。**
增强技术**:更便宜的代币允许频繁使用诸如混合代理和思维链等高级技术,从而实现更高效、更高质量的人工智能使用。**

智能使用。**

本地边缘设备:该框架促进在本地边缘设备上运行人工智能,进一步提高效率和可访问性。

博客原文:专业人工智能社区

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值