对齐LLM偏好的直接偏好优化方法：DPO、IPO、KTO

最新推荐文章于 2025-04-29 16:35:42 发布

原创最新推荐文章于 2025-04-29 16:35:42 发布

· 1.4k 阅读

10 ·

版权

文章标签：

#人工智能 #深度学习 #LLM #自然语言处理 #大语言模型 #AI大模型 #DOP

“

Preference Tuning LLMs with Direct Preference Optimization Methods
https://hf-mirror.com/blog/pref-tuning

在这篇文章中，对三种有前景的大型语言模型（LLMs）对齐算法进行了实证评估：直接偏好优化（DPO）、身份偏好优化（IPO）和卡尼曼-特沃斯基优化（KTO）。在两个经过监督微调但未进行偏好对齐的高质量7B参数LLMs上进行了实验。虽然有一种算法明显优于其他算法，但要达到最佳结果，必须调整关键的超参数。

没有强化学习的对齐

DPO论文的图片（https://arxiv.org/abs/2305.18290）

直接偏好优化（DPO）已成为将大型语言模型（LLMs）与人类或AI偏好对齐的有前景的替代方法。与传统基于强化学习的对齐方法不同，DPO将对齐问题重新定义为一个简单的损失函数，可以直接在偏好数据集上进行优化。这使得DPO在实践中易于使用，并已成功应用于训练如Zephyr和Intel的NeuralChat等模型。

DPO的成功促使研究人员开发了新的损失函数，以两个主要方向推广该方法：

鲁棒性：DPO的一个缺点是它倾向于在偏好数据集上快速过拟合。为了避免这一点，Google DeepMind的研究人员引入了身份偏好优化（IPO），它在DPO损失中添加了一个正则化项，使得模型可以在不需要像早停这样的技巧的情况下收敛。
完全放弃成对偏好数据：像大多数对齐方法一样，DPO需要一个成对偏好的数据集，其中标注者根据一系列标准（如有帮助性或有害性）标记哪个回答更好。在实践中，创建这些数据集是一项耗时且成本高昂的任务。ContextualAI最近提出了一个有趣的替代方案，称为卡尼曼-特沃斯基优化（KTO），它完全基于被标记为“好”或“坏”的单个例子定义损失函数（例如，在聊天UI中看到的👍或👎图标）。这些标签在实践中更容易获取，KTO是持续更新生产环境中运行的聊天模型的一个有前景的方法。

同时，这些方法伴随着超参数，最重要的是β（beta），它控制了参考模型偏好的权重。通过像🤗 TRL这样的库，这些替代方案现在可供实践者使用。一个自然的问题是，这些方法和超参数中哪一个能产生最好的聊天模型？

这篇文章旨在通过实证分析这三种方法来回答这个问题。将在关键超参数（如β和训练步骤）上进行扫描，然后通过MT-Bench评估生成模型的性能，MT-Bench是一个常用的基准测试，用于衡量聊天模型的能力。

实验设计

在进行对齐实验时，需要考虑两个主要因素：选择优化的模型和对齐数据集。为了获得更多的独立数据点，考虑了两个模型：OpenHermes-2.5-Mistral-7B和Zephyr-7b-beta-sft，以及两个对齐数据集：Intel的orca_dpo_pairs和ultrafeedback-binarized数据集。

对于第一次实验，选择了OpenHermes-2.5-Mistral-7B，因为它是尚未接受任何对齐技术的最好的7B参数聊天模型之一。然后使用了Intel的数据集，该数据集包含13,000个提示，其中选择的回答由GPT-4生成，不期望的回答由Llama-Chat 13b生成。这是NeuralChat和NeuralHermes-2.5-Mistral-7B背后的数据集。由于KTO本身并不要求成对偏好，简单地将GPT-4的回答视为“好”标签，将Llama-Chat 13b的回答视为“坏”标签。虽然GPT-4的回答很可能优于Llama-Chat 13b，但可能有一些情况下Llama-Chat-13b会产生更好的回答，这代表了少数例子。

第二次实验在Zephyr模型上进行了偏好对齐，使用了包含66,000个提示的数据集，其中包含成对的选择和拒绝回答。这个数据集被用来训练原始的Zephyr模型，当时在许多自动化基准测试和人类评估中，它是最佳的7B模型。

参数配置

alignment-handbook提供了一种简单的方法来配置单个实验，这些参数用于配置run_dpo.py脚本。

# Model arguments
model_name_or_path: teknium/OpenHermes-2.5-Mistral-7B
torch_dtype: null

# Data training arguments
dataset_mixer:
  HuggingFaceH4/orca_dpo_pairs: 1.0
dataset_splits:
- train_prefs
- test_prefs
preprocessing_num_workers: 12

# Training arguments with sensible defaults
bf16: true
beta: 0.01
loss_type: sigmoid
do_eval: true
do_train: true
evaluation_strategy: steps
eval_steps: 100
gradient_accumulation_steps: 2
gradient_checkpointing: true
gradient_checkpointing_kwargs:
  use_reentrant: False
hub_model_id: HuggingFaceH4/openhermes-2.5-mistral-7b-dpo
hub_model_revision: v1.0

learning_rate: 5.0e-7
logging_steps: 10
lr_scheduler_type: cosine
max_prompt_length: 512
num_train_epochs: 1
optim: adamw_torch
output_dir: data/openhermes-2.5-mistral-7b-dpo-v1.0
per_device_train_batch_size: 8
per_device_eval_batch_size: 8
push_to_hub_revision: true
save_strategy: "steps"
save_steps: 100
save_total_limit: 1
seed: 42
warmup_ratio: 0.1

为Zephyr实验创建了一个类似的基础配置文件。
聊天模板是从基础聊天模型自动推断出来的，OpenHermes-2.5使用ChatML格式，Zephyr使用H4聊天模板。或者，如果你想使用自己的聊天格式，🤗 tokenizers库现在已经通过jinja格式字符串启用了用户定义的聊天模板。
#Zephyr聊天模板示例
{% for message in messages %} {% if message['role'] == 'user' %} {{

为Zephyr实验创建了一个类似的基础配置文件。

聊天模板是从基础聊天模型自动推断出来的，OpenHermes-2.5使用ChatML格式，Zephyr使用H4聊天模板。或者，如果你想使用自己的聊天格式，🤗 tokenizers库现在已经通过jinja格式字符串启用了用户定义的聊天模板。

#Zephyr聊天模板示例
{% for message in messages %} {% if message['role'] == 'user' %} {{ '<|user|>' + message['content'] + eos_token }} {% elif message['role'] == 'system' %} {{ '<|system|>' + message['content'] + eos_token }} {% elif message['role'] == 'assistant' %} {{ '<|assistant|>' + message['content'] + eos_token }} {% endif %} {% if loop.last and add_generation_prompt %} {{ '<|assistant|>' }} {% endif %} {% endfor %}

这将格式化对话如下：

<|system|> 
# 你是一个友好的聊天机器人，总是以海盗的风格回应。<|/s>
<|user|> 
# 一个人一次能吃多少直升机？<|/s> 
<|assistant|> 
# 啊，我亲爱的伙伴！但你的问题真是个谜！一个人不能一次吃掉直升机，因为直升机不是食物。它们是由金属、塑料和其他材料制成的，而不是食物！

超参数扫描

通过TRL的DPOTrainer使用loss_type参数训练了DPO、IPO和KTO方法，β值从0.2到0.9。包括了这个参数，因为我们观察到一些对齐算法对这个参数特别敏感。所有实验都训练了一个周期。每次运行中，所有其他超参数都保持不变，包括随机种子。

然后使用上述定义的基础配置在HF Mirror集群上启动了扫描。

#!/bin/bash
# Define an array containing the base configs we wish to fine tune
configs=("zephyr" "openhermes")
# Define an array of loss types
loss_types=("sigmoid" "kto_pair" "ipo")
# Define an array of beta values
betas=("0.01" "0.1" "0.2" "0.3" "0.4" "0.5" "0.6" "0.7" "0.8" "0.9")

# Outer loop for loss types
for config in "${configs[@]}"; do
    for loss_type in "${loss_types[@]}"; do
        # Inner loop for beta values
        for beta in "${betas[@]}"; do
            # Determine the job name and model revision based on loss type
            job_name="$config_${loss_type}_beta_${beta}"
            model_revision="${loss_type}-${beta}"
            # Submit the job
            sbatch --job-name=${job_name} recipes/launch.slurm dpo pref_align_scan config_$config deepspeed_zero3 \\
            "--beta=${beta} --loss_type=${loss_type} --output_dir=data/$config-7b-align-scan-${loss_type}-beta-${beta} --hub_model_revision=${model_revision}"
        done
    done
done

结果

使用MT Bench评估了所有模型，这是一个多轮基准测试，使用GPT-4来判断模型在八个不同类别中的表现：写作、角色扮演、推理、数学、编码、提取、STEM（科学、技术、工程和数学）以及人文学科。尽管不完美，但MT Bench是评估对话型LLMs的一个好方法。

Zephyr-7b-beta-SFT

对于Zephyr模型，观察到最佳表现是在最低的β值0.01时实现的。这在所有测试的三种算法中都是一致的，社区接下来可能会对0.0到0.2的范围进行更细致的扫描。虽然DPO可以达到最高的MT Bench得分，但我们发现KTO（成对）在几乎所有设置中都取得了更好的结果。尽管IPO有更强的理论保证，但在几乎所有设置中，它的表现似乎都不如基础模型。