LLMs之RouteLLM:RouteLLM的简介、安装和使用方法、案例应用之详细攻略

LLMs之RouteLLM:RouteLLM的简介、安装和使用方法、案例应用之详细攻略

导读2024728,Meta提出了一种通过路由技术在大型语言模型的性能和成本之间寻求平衡的创新框架和方法。

背景痛点:大型语言模型(LLM)在自然语言任务上表现出色,但不同模型在能力和成本上存在巨大差异。大型模型虽强大但代价高昂,小型模型虽便宜但性能较差。在实际部署LLM时,需要权衡响应质量和成本之间的平衡。在实际应用中,将所有查询路由到最强模型上会导致高昂费用,而仅使用较小模型又可能降低响应质量。

解决方案:提出了一种高效的LLM路由系统RouteLLM,通过一个路由器模型在强大但昂贵的LLM和较弱但便宜的LLM之间进行动态选择,以优化响应质量和成本之间的平衡,显著降低了成本(在某些情况下超过2倍),同时不影响响应质量。通过在人类偏好数据和数据增强技术上进行训练,在推理过程中动态选择强模型或弱模型。

核心思路和步骤:将LLM路由问题形式化为一个二元分类问题,即根据查询复杂程度选择路由至强模型还是弱模型。设计了一个胜率预测模型,从人类偏好数据中学习预测使用强模型时的胜率概率。根据预测胜率和设定的成本阈值,进行路由决策。提出了多种路由模型结构,如相似度加权排名、矩阵分解和BERT分类器等。

● 路由问题的公式化:在强模型和弱模型之间进行路由,目标是在特定性能目标下最小化成本。

● 路由模型的训练:利用人类偏好数据和数据增强技术(如含金标签数据集和LLM判断器标记数据)来增强模型性能。

● 评价框架:在多个基准测试上进行评估,展示了在不显著降低质量的情况下,成本能显著降低。定义了评估指标,如CPT(call-performance threshold)和APGR(average performance gap recovered)。

优势

● 成本效益:能够在性能目标下,显著降低模型调用成本。在多个公开基准测试中,RouteLLM能够在不损失响应质量的情况下将成本降低2倍以上。

● 迁移学习能力强:路由器模型展现出良好的迁移学习能力,即使在测试时更换了强弱模型也能保持性能。

● 开源:开源了用于训练路由器的代码和偏好数据,提高了研究的透明度和可复现性。为实际部署LLM提供了一种高性能且经济的解决方案。

目录

相关文章

《RouteLLM: Learning to Route LLMs with Preference Data》翻译与解读

RouteLLM的简介

RouteLLM的安装和使用方法

1、安装

2、使用方法

快速开始

首先,通过初始化 RouteLLM 控制器来替换 OpenAI 客户端,并使用 mf 路由器。默认情况下,RouteLLM 将使用性能最好的配置:

每个路由请求都有一个成本阈值,用于控制成本与质量之间的权衡。我们应根据接收到的查询类型校准此阈值,以最大化路由性能。下面是一个例子,使用 Chatbot Arena 的数据校准 50% GPT-4 调用的阈值:

现在,让我们在生成完成时更新模型字段,以指定要使用的路由器和阈值:

服务器和演示

模型支持

动机

服务器

阈值校准

3、评估

4、路由器

5、配置

6、贡献

添加新路由器

添加新基准测试

RouteLLM的案例应用


相关文章

《RouteLLM: Learning to Route LLMs with Preference Data》翻译与解读

地址

论文地址:https://arxiv.org/abs/2305.15334

时间

2024728

作者

Meta FAIR

University of California, Berkeley

New York University

RouteLLM的简介

RouteLLM 是一个用于服务和评估 LLM 路由器的框架。

我们的核心功能包括:

>> 可直接替换 OpenAI 的客户端(或启动一个兼容 OpenAI 的服务器)来将简单查询路由到更便宜的模型。

>> 开箱即用的训练路由器,我们已证明在广泛使用的基准测试中,如 MT Bench,成本降低高达 85%,而 GPT-4 性能保持在 95%。

>> 基准测试还表明,这些路由器在达到商业产品同等性能的同时,成本降低了 40% 以上。

轻松扩展框架以包含新的路由器,并比较不同基准测试中路由器的性能。

RouteLLM的安装和使用方法

1、安装

从 PyPI 安装

pip install "routellm[serve,eval]"

从源代码安装

git clone https://github.com/lm-sys/RouteLLM.git
cd RouteLLM
pip install -e .[serve,eval]

2、使用方法

快速开始

以下是替换现有 OpenAI 客户端以在 LLM 之间路由查询而非仅使用单一模型的步骤。

首先,通过初始化 RouteLLM 控制器来替换 OpenAI 客户端,并使用 mf 路由器。默认情况下,RouteLLM 将使用性能最好的配置:

import os
from routellm.controller import Controller

os.environ["OPENAI_API_KEY"] = "sk-XXXXXX"
# Replace with your model provider, we use Anyscale's Mixtral here.
os.environ["ANYSCALE_API_KEY"] = "esecret_XXXXXX"

client = Controller(
  routers=["mf"],
  strong_model="gpt-4-1106-preview",
  weak_model="anyscale/mistralai/Mixtral-8x7B-Instruct-v0.1",
)

在上面的例子中,我们选择了 gpt-4-1106-preview 作为强模型,anyscale/mistralai/Mixtral-8x7B-Instruct-v0.1 作为弱模型,并相应设置 API 密钥。您可以通过更新模型名称来在不同的模型对或提供商之间路由,如模型支持中所述。

想要路由到本地模型?请查看路由到本地模型部分。

每个路由请求都有一个成本阈值,用于控制成本与质量之间的权衡。我们应根据接收到的查询类型校准此阈值,以最大化路由性能。下面是一个例子,使用 Chatbot Arena 的数据校准 50% GPT-4 调用的阈值:

python -m routellm.calibrate_threshold --routers mf --strong-model-pct 0.5 --config config.example.yaml

输出结果:

对于 mf 的 50.0% 强模型调用,阈值 = 0.11593

这意味着我们需要使用 0.11593 作为阈值,以便大约 50% 的所有查询(那些最需要 GPT-4 的查询)将被路由到它(详见阈值校准)。

现在,让我们在生成完成时更新模型字段,以指定要使用的路由器和阈值:
response = client.chat.completions.create(
  # This tells RouteLLM to use the MF router with a cost threshold of 0.11593
  model="router-mf-0.11593",
  messages=[
    {"role": "user", "content": "Hello!"}
  ]
)

就是这样!现在,根据需要,查询会在强模型和弱模型之间进行路由,在保持高响应质量的同时节省成本。

根据您的用例,您可能需要考虑使用不同的模型对,修改配置,或根据接收到的查询类型校准阈值,以提高性能。

服务器和演示

除了使用 Python SDK,您还可以启动一个兼容 OpenAI 的服务器,该服务器可以与任何现有的 OpenAI 客户端配合使用,步骤如下:

> export OPENAI_API_KEY=sk-XXXXXX
> export ANYSCALE_API_KEY=esecret_XXXXXX
> python -m routellm.openai_server --routers mf --strong-model gpt-4-1106-preview --weak-model anyscale/mistralai/Mixtral-8x7B-Instruct-v0.1
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:6060 (Press CTRL+C to quit)

服务器启动后,您可以启动一个本地路由器聊天机器人,以查看不同消息是如何被路由的。

python -m examples.router_chat --router mf --threshold 0.11593

模型支持

在上面的例子中,GPT-4 和 Mixtral 8x7B 被用作模型对,但您可以通过使用 strong-model 和 weak-model 参数来修改它。

我们利用 LiteLLM 支持从各种开源和闭源模型生成聊天完成。一般来说,您需要设置 API 密钥并使用适当的模型名称指向提供商。或者,您也可以通过在模型名称前加上 openai/ 并设置 --base-url 和 --api-key 标志,使用任何兼容 OpenAI 的端点。

请注意,无论使用哪个模型对,当前仍然需要 OPENAI_API_KEY 来为 mf 和 sw_ranking 路由器生成嵌入。

以下是为流行提供商设置 API 密钥的说明:

使用 Ollama 的本地模型:请参阅此指南

对于其他模型提供商,请在此查找说明或提出问题。

动机

不同的 LLM 在成本和能力上差异很大,这导致在部署时出现两难:将所有查询路由到最强大的模型可以获得最高质量的响应,但成本很高,而将查询路由到较小的模型可以节省成本,但可能会导致质量下降。

LLM 路由为此提供了解决方案。我们引入了一个路由器,负责查看查询并将较简单的查询路由到较小、较便宜的模型,既能节省成本,又能保持质量。我们专注于在两个模型之间进行路由:一个较强且昂贵的模型和一个较便宜但较弱的模型。每个请求还与一个成本阈值相关联,该阈值决定了该请求的成本-质量权衡——较高的成本阈值会降低成本,但可能导致较低质量的响应。

该库中的研究是在与 Anyscale 的合作下进行的,我们对他们的帮助和支持表示感谢。

服务器

RouteLLM 提供了一个轻量级的兼容 OpenAI 的服务器,用于基于不同的路由策略路由请求:

python -m routellm.openai_server --routers mf --config config.example.yaml

--routers 指定服务器可用的路由器列表。例如,在这里,服务器以一个可用路由器 mf 启动(请参阅下方的路由器列表)。

--config 指定路由器配置文件的路径。如果未指定,服务器将默认使用我们性能最好的配置(详见配置部分)。

对于大多数用例,我们推荐使用 mf 路由器,因为我们已评估其非常强大且轻量。

在向服务器发出请求时,客户端通过在模型字段中指定路由器和成本阈值来指定每个请求使用的路由器,格式为 router-[ROUTER NAME]-[THRESHOLD]。例如,使用模型 router-mf-0.5 表示请求应使用 mf 路由器并以阈值 0.5 进行路由。

阈值校准

用于路由的阈值控制成本-质量之间的权衡。根据路由器类型和收到的查询类型,意义阈值的范围会有所不同。因此,我们建议使用您接收到的查询样本以及希望路由到较强模型的查询百分比来校准阈值。

默认情况下,我们支持基于公共 Chatbot Arena 数据集校准阈值。例如,要校准 mf 路由器,使得 50% 的调用被路由到较强模型:

python -m routellm.calibrate_threshold --task calibrate --routers mf --strong-model-pct 0.5 --config config.example.yaml

输出结果:

对于 mf 的 50.0% 强模型调用,阈值 = 0.11593

这意味着 mf 路由器的阈值应设置为 0.1881,以便大约 50% 的调用被路由到强模型,即使用模型字段 router-mf-0.1159。

然而,请注意,由于我们是基于现有数据集校准阈值,路由到每个模型的调用百分比会根据实际收到的查询有所不同。因此,我们建议在与您接收到的查询的子集上校准阈值。

3、评估

RouteLLM 还包括一个评估框架,用于衡量不同路由策略在基准测试中的表现。

要在基准测试中评估某个路由器,可以使用以下命令:

python -m routellm.evals.evaluate --routers random sw_ranking bert --benchmark gsm8k --config config.example.yaml

--routers 指定要评估的路由器列表,例如,在此案例中是 random 和 bert。
--benchmark 指定用于评估路由器的特定基准测试。目前我们支持以下基准测试:mmlu、gsm8k 和 mt-bench。

评估结果将显示在控制台中。还会在当前目录下生成一个路由器性能的图表(可以使用 --output 参数来覆盖路径)。为了避免重复计算结果,默认情况下,路由器在特定基准测试中的结果会被缓存。如果希望覆盖缓存,可以使用 --overwrite-cache 标志,该标志接受要覆盖缓存的路由器列表。

我们已缓存了所有基准测试的结果。对于 MT Bench,我们使用了预先计算的模型对评判结果。对于 MMLU 和 GSM8K,我们使用了 SGLang 计算模型对的结果——完整代码可以在基准测试目录中找到,如果您希望评估不同的模型对,可以参考这些代码。

默认情况下,GPT-4 和 Mixtral 被用作评估的模型对。如果需要修改评估使用的模型对,可以使用 --strong-model 和 --weak-model 标志来设置它们。

4、路由器

RouteLLM 开箱即用地支持 4 个基于 gpt-4-1106-preview 和 mixtral-8x7b-instruct-v0.1 模型对训练的路由器。

完整的路由器列表如下:
>> mf: 使用基于偏好数据训练的矩阵分解模型(推荐使用)。
>> sw_ranking: 使用加权 Elo 计算进行路由,每一票的权重根据与用户提示的相似度而定。
>> bert: 使用基于偏好数据训练的 BERT 分类器。
>> causal_llm: 使用基于 LLM 的分类器并针对偏好数据进行微调。
>> random: 随机路由到任意模型。

虽然这些路由器是基于 gpt-4-1106-preview 和 mixtral-8x7b-instruct-v0.1 模型对进行训练的,但我们发现它们在其他强模型和弱模型对之间也能很好地泛化。因此,您可以替换用于路由的模型对,而无需重新训练这些模型!
我们还提供了详细的说明,指导如何在以下的 notebook 中训练基于 LLM 的分类器。有关完整细节,请参考我们的论文。

5、配置

路由器的配置可以通过 Controller 的 config 参数指定,或者通过使用 --config 标志传递 YAML 文件的路径来指定。这是一个顶级映射,包含路由器名称到用于路由器初始化的关键字参数。

一个示例配置可以在 config.example.yaml 文件中找到——它提供了使用 GPT-4 作为评判标准,对 Arena 数据增强后训练的路由器配置。使用的模型和数据集都托管在 Hugging Face 上的 RouteLLM 和 LMSYS 组织下。

6、贡献

我们欢迎社区的贡献!如果您有任何建议或改进,请随时提交问题或拉取请求。

添加新路由器

要向 RouteLLM 添加新的路由器,需要在 routers.py 中实现抽象 Router 类,并将新路由器添加到 ROUTER_CLS 字典中。然后,您可以立即在服务器或评估框架中使用新路由器。

需要实现的唯一方法是 calculate_strong_win_rate,它接受用户提示并返回强模型在给定提示下的获胜率——如果此获胜率大于用户指定的成本阈值,则请求会被路由到强模型,否则会路由到弱模型。

添加新基准测试

要向 RouteLLM 添加新的基准测试,需要在 benchmarks.py 中实现抽象 Benchmark 类,并更新 evaluate.py 模块以正确初始化新的基准测试类。理想情况下,基准测试的结果应该预先计算,以避免在每次评估运行时重新生成结果——有关如何执行此操作的示例,请参阅现有的基准测试。

RouteLLM的案例应用

持续更新中……

### minimind LLMs 源码解读分析 #### full_sft.py 文件解析 `full_sft.py` 是一个用于实现基于 PyTorch 的分布式混合精度语言模型全参数训练框架的脚本[^1]。该文件主要关注于如何高效地利用硬件资源,在大规模数据集上进行高效的训练。 为了支持分布式训练,此模块引入了 `torch.distributed.launch` 工具来启动多进程环境,并通过配置 GPU 设备来进行并行计算。对于优化器的选择,默认采用 AdamW 来更新权重参数;同时为了加速收敛过程以及提高数值稳定性,还应用了梯度裁剪技术防止梯度过大造成不稳定现象发生。 此外,考虑到现代深度学习任务中常见的内存瓶颈问题,这里实现了自动混合精度机制 (Automatic Mixed Precision, AMP),它允许网络中的某些部分以较低位宽的数据类型运行从而节省显存空间而不影响最终性能表现。 ```python from torch.cuda.amp import GradScaler, autocast scaler = GradScaler() with autocast(): outputs = model(inputs) loss.backward() scaler.step(optimizer) scaler.update() ``` #### eval.py 文件解析 另一方面,《eval.py》则专注于构建一个可以与用户实时互动交流的人工智能系统[^2]。具体来说就是创建了一个命令行界面(Command Line Interface, CLI), 让使用者能够输入自然语言查询语句得到相应的回复结果。 在这个过程中涉及到的关键组件包括但不限于: - **Tokenizer**: 负责将原始文本转换成 token 序列以便送入 Transformer 编解码架构处理; - **Model Inference Pipeline**: 定义好推理流程之后就可以调用预训练好的 checkpoint 进行预测操作了; - **Response Generation Logic**: 根据上下文信息动态调整生成策略确保对话连贯性逻辑一致性. ```python tokenizer = AutoTokenizer.from_pretrained('pretrained_model_path') model = AutoModelForCausalLM.from_pretrained('pretrained_model_path') input_text = "你好" inputs = tokenizer(input_text, return_tensors="pt").to(device) outputs = model.generate(**inputs, max_length=50) response = tokenizer.decode(outputs[0], skip_special_tokens=True) print(response) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个处女座的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值