RouteLLM：以降低 80% 的成本实现 90% 的 GPT-4 质量

最新推荐文章于 2024-10-04 18:59:43 发布

CloseAi论坛

最新推荐文章于 2024-10-04 18:59:43 发布

阅读量684

点赞数 27

文章标签：数据结构算法人工智能

本文链接：https://blog.csdn.net/weixin_37863729/article/details/140721039

版权

RouteLLM：以降低 80% 的成本实现 90% 的 GPT-4 质量

图片来自X 上的Sam Witteveen让我介绍一下 RouteLLM，这是来自 lmsys.org 的一个创新项目，旨在将运行大型语言模型 (LLM) 的成本显著降低多达 80%，同时保持 95% 的 GPT-4 质量。RouteLLM 是一个为经济高效的 LLM 路由而设计的开源框架，使用较小的开源模型实现高质量的结果。关键亮点平衡成本和性能：RouteLLM 有效地平衡了成本和性能，以极低的成本提供接近 GPT-4 的质量。优化系统：该框架使用较小的开源模型和代理系统，由编排层管理，以优化质量、效率、成本、隐私和安全性。本地计算：大部分计算都被推送到手机和计算机等本地设备，只有必要的查询才会路由到更昂贵的模型，例如 GPT-4。面向未来：随着法学硕士 (LLM) 的进步，更多的任务可以在本地处理，从而降低总体成本。图片来自 lmsys.orgRouteLLM 将彻底改变 LLM 的部署方式，使其更易于访问且更具成本效益，同时保持高性能。该项目的开源性质允许进一步开发和集成到各种应用程序中，标志着人工智能的重大进步。使用 RouteLLM 进行高效查询处理本地模型可以有效处理 90–95% 的查询，从而减少了对最复杂的 5–10% 查询使用 Claude 或 ChatGPT 等更昂贵模型的依赖。LLM 路由提供了一种有效的解决方案，它首先通过一个系统处理每个查询，该系统确定应该由哪个 LLM 来处理该查询，从而确保可管理的查询在本地路由，在保持响应质量的同时最大限度地降低成本。RouteLLM 框架RouteLLM 是一个基于偏好数据的 LLM 路由原则框架，解决了准确路由查询的挑战。该框架涉及：推理：确定传入查询和模型能力的特征。训练：使用公共数据训练四种不同的路由器，在不影响质量的情况下显著降低成本。性能指标MT Bench：成本降低85%以上。MLU：成本降低了45%。GSM AK：实现了35%的成本降低。所有基准测试均保持了 GPT-4 95% 的性能。RouteLLM 的评估和结果实验装置图片来自 lmsys.org使用的模型：GPT-4 作为强模型，Mixtral 8x7B 作为弱模型。基线：使用随机路由器作为比较的基线。基准评估使用三个流行的基准来评估 RouteLLM 框架的性能：MT Bench、MMLU 和 GSM8K。评估重点关注 GPT-4 Turbo 作为强模型与 Mixtral 8x7B 作为弱模型之间的路由，使用随机路由器作为比较基线。图片来自 lmsys.orgMT 基准测试结果MT Bench 上的路由器性能****仅 Arena 数据：仅在 Arena 数据集上进行训练时，矩阵分解和相似性加权 (SW) 排名路由器均表现出色。矩阵分解路由器仅使用 26% 的 GPT-4 调用就实现了 95% 的 GPT-4 性能，与随机基线相比，成本降低了 48%。增强数据：使用 LLM 判断器增强 Arena 数据可显著提高所有路由器的性能。在这种情况下，矩阵分解路由器仅用 14% 的 GPT-4 调用就实现了 95% 的 GPT-4 性能，比随机基线便宜 75%。MMLU 结果图片来自 lmsys.orgMMLU 上的路由器性能仅限 Arena 数据：在 MMLU 上，由于大多数问题都具有分布不均的性质，因此仅在 Arena 数据上进行训练时路由器的表现不佳。增强数据：使用来自 MMLU 验证拆分的黄金标签数据增强数据集可带来显著改进。性能最佳的因果 LLM 路由器仅需 54% 的 GPT-4 调用即可实现 95% 的 GPT-4 性能，与随机基线相比，成本降低了 14%。值得注意的是，这一改进仅通过 1500 个额外样本实现，证明了即使使用小型数据集，数据增强也具有很高的有效性。与商业产品的比较图片来自 lmsys.org图片来自 lmsys.orgRouteLLM 与商业系统RouteLLM 在 MT Bench 上与商业路由系统 Martian 和 Unify AI 进行了比较。性能和成本：使用 GPT-4 Turbo 和 Llama 2 70B 或 Mixtral 8x7B，RouteLLM 路由器实现了与这些商业系统类似的性能，但便宜了 40% 以上。推广到其他模型MT Bench 上的泛化为了测试普遍性，在 MT Bench 上使用不同的模型对（Claude 3 Opus 和 Llama 3 8B)对 RouteLLM 进行了评估，而无需重新训练路由器。结果：路由器保持了强劲的性能，与原始模型对评估相当。这表明 RouteLLM 的路由器可以有效地概括，即使使用新的、未见过的模型对，也可以区分强模型和弱模型。因此，RouteLLM 在多个基准和不同模型对中的评估证明了其强大的性能、显著的成本节省以及无需重新训练即可进行推广的能力。该框架使用数据增强和偏好数据训练方法确保高质量的响应，同时优化成本，使其成为高效部署 LLM 的宝贵工具。**