Step-DPO 论文——数学大语言模型理解

liguiyuan112

已于 2024-07-30 16:04:12 修改

阅读量2k

点赞数 16

文章标签：语言模型人工智能自然语言处理数学大模型 Step-DPO LLMs

于 2024-07-19 17:08:48 首次发布

本文链接：https://blog.csdn.net/u012505617/article/details/140553215

版权

论文题目：STEP-DPO: STEP-WISE PREFERENCE OPTIMIZATION FOR LONG-CHAIN REASONING OF LLMS

翻译为中文就是：“LLMs长链推理的逐步偏好优化”

论文由港中文贾佳亚团队推出，基于推理步骤的大模型优化策略，能够像老师教学生一样优化大模型。

以Qwen2-72B-Instruct模型作为基础模型进行微调优化后，其数学成绩超越了GPT-4、Gemini1.5-Pro、Claude3-Opus等闭源模型。

论文链接：https://arxiv.org/pdf/2406.18629

代码仓库：https://github.com/dvlab-research/Step-DPO

1. 介绍

大语言模型（LLMs）在数学推理上具有重大挑战，这是由于数学需要精确的推理链。然而，直接偏好优化（DPO）对长链数学推理的益处有限，因为采用DPO的模型难以识别错误答案中的详细错误。

所以作者提出了Step-DPO方法，它将整个答案划分多个步骤作答（Step1, Step2, Step3, ...），大大提高的模型的精度。

在MATH数据集上，在Qwen2-7B-Instruct上准确率从53.0% 提升到58.6%，GSM8K数据集，准确率从85.5%提升到87.9% 。使用 Qwen2-72B-Instruct模型，在MATH和GSM8K上分别取得 70.8% 和 94.0%的准确率。

1.1 像教育学生一样训练大模型

数学推理被认为是大语言模型（LLMs）中一种关键的长链推理能力。由于需要广泛的思维链（CoT），这项任务尤其具有挑战性，其中可能包括许多推理步骤，这些步骤中的任何错误都可能导致最终得不到正确答案。

（1）首先，最常用的方法就是监督微调（SFT），使用各种数据增强对齐来微调模型。然而，当SFT数据达到一定数量时，模型经常出现幻觉，性能也随之趋于饱和。一个潜在的原因是，随着首选输出的概率增加，不理想输出的概率也会增加。这种现象使得模型在长链推理中更容易出错。

（2）最近，直接偏好优化（DPO）（Rafailov et al., 2024）被提出用于使用偏好对数据进行对齐（每个偏好对都包含一个输入提示、偏好输出及非偏好输出），因其简单性而广受欢迎。尽管DPO在Chat聊天任务中很有效，但它对长链（long-chain）数学任务效果不明显。如下图2所示。

（3）于是作者提出了Step-DPO，基于推理步骤的直接偏好优化。Step-DPO 逐步检查每个步骤的答案是否正确，这使得模型能够轻松定位错误Step，以进行有效的优化，显著增强了长链推理。

2. STEP-DPO 公式

2.1 DPO

我们先看到DPO的优化目标函数：

$\begin{aligned} L_{DPO}(\theta)=-E_{(x,y_{win},y_{lose})\backsim D}[log \sigma (\beta log \frac {\pi_{\theta} (y_{win} \mid x)}{\pi_{ref}(y_{win \mid x})} - \beta log \frac{\pi_{\theta}(y_{lose} \mid x)}{\pi_{ref}(y_{lose} \mid x)})] \end{aligned}$

其中， $\ x$ 是输入提示， $\ y_{win}, y_{lose}$ 分别表示正确的回答、错误的回答， $\ D$ 是偏好对数据集。 $\sigma$ 表示 sigmoid 函数， $\pi_{\theta}$ 与 $\pi_{ref}$ 分别表示当前要优化的微调模型以及训练过程中保存不变的参照模型， $\beta$ 是一个超参数用来控制距离。

2.2 Step-DPO

我们再看到Step-DPO，它不再像DPO从整体对比答案，而是将每个推理步骤视为一个基本单元，对比单个推理步骤，更精细地提升模型的推理能力。目标优化公式：

$\begin{aligned} L(\theta)=-E_{(x,s_{1 \backsim k-1},s_{win}, s_{lose})\backsim D}[log \sigma (\beta log \frac {\pi_{\theta} (s_{win} \mid x; s_{1 \backsim k-1})}{\pi_{ref}(s_{win} \mid x; s_{1 \backsim k-1})} - \beta log \frac{\pi_{\theta}(s_{lose} \mid x; s_{1 \backsim k-1})}{\pi_{ref}(s_{lose} \mid x; s_{1 \backsim k-1})})] \end{aligned}$

回答 $\ y$ 可以分解为多个步骤 $\ y=s_{1}, ..., s_n$ ， $\ x$ 表示输入提示。Step-DPO 优化目标就是最大化正确的下一个推理步骤 $\ s_{win}$ 的概率，最小化错误步骤 $\ s_{lose}$ 的概率，如图3所示。

3. 分布式数据构建

Step-DPO 的训练数据集是怎样的呢？每个数据样本中应该包含下面4项：

1）prompt $\ x$ ；

2）初始推理步骤 $\ s_{1 \backsim k-1}$ ；

3）首选推理步骤 $\ s_{win}$ ；

4）不需要（错误）的推理步骤 $\ s_{lose}$

如下图所示：

（1）错误收集

首先，我们收集数学问题问答的数据集 $\ D_0 = \{ (x, \hat{y}) \}$ ，x 是数学问题， $\ \hat{y}$ 是真实答案。

然后，使用初始（参照）模型 $\ \pi_{ref}$ 来得到每个数学问题 x 的答案。

在进行模型推理之前，添加思维链（CoT）前缀作为提示，比如：“Let‘s think step by step. Step 1:”，以确保模型的推理结果被结构化为多个推理步骤。

模型推理完成之后可得到每个数学问题x的推理结果y，然后选择与真实答案 $\ \hat{y}$ 不一致的那些结果，汇总得到数据集 $\ D_1$ ：

$\begin{aligned} D_1 = \{ (x, \hat{y}, y) \mid x \in D_0 \} \end{aligned}$

（2）错误步骤定位

假设每个错误的推理结果都被明确地表示为推理步骤序列 $\ y = s_1, s_2, ..., s_n$ ，随后需要人工或利用GPT-4验证每个推理步骤的正确性，直到找到第一个错误步骤 $\ s_k$ ，选择 $\ s_k$ 作为错误的推理步骤 $\ s_{loss}$ 。这样得到一个包含错误步骤的数据集 $\ D_2$ ：

$D_2 = \{ (x, \hat{y}, s_{1 \backsim k-1}, s_{loss}) \mid x \in D_1 \}$

（3）步骤修正

为了获得 $\ D_2$ 中每个样本的相应正确推理步骤，需要通过用提示x 和前面的正确推理步骤 $\ s_{1 \backsim k-1}$ 通过模型 $\pi_{ref}$ 来采样多个输出 $\ y_{cont}$ ，该过程被表述为：

$y_{cont} \backsim \pi_{ref} (y \mid x; s_{1 \backsim k-1})$

随后，保留那些最终答案与实际情况相匹配的输出。我们选择 $\ y_{cont}$ 中的第一个推理步骤作为 $\ s_{win}$ ，从而得到最终的数据集D：

$D = \{ (x, s_{1 \backsim k-1}, s_{lose}, s_{win} \mid x \in D_2 ) \}$

数据样本示例如 Figure 5 所示。

4. 实验结果

（1）实验步骤

网络架构选择：作者在这个实验中使用了多个base model 做实验，包含 Qwen2, Qwen1.5 系列，Meta-Llama3-70B, deepseek-math-7b-base 等基础模型。

数据集：

在监督微调（SFT）阶段：使用 Meta-Math 和 MMIQC 的增广数学问题输入到 DeepSeek-Math 来推理，step-by-step 来进行回答（因为 DeepSeekMath 使用的SFT数据尚未公开）。在过滤掉答案错误的responses 之后，一共获得了 374K SFT数据。其中，299k 用于 SFT，剩余的用于进一步 Step-DPO 训练。

在 Step-DPO 阶段：除了剩余的 SFT 数据外，作者还纳入了 AQuA 数据集的一个子集。这些数据按照第3.2节所述进行处理，得到 10K 偏好对（pair-wise ）的 Step-DPO 数据。

在评估上：作者使用了MATH 和 GSM8K 数据集。MATH包含5000道数学题，包括代数、统计与概率、几何、中间代数、数论、前代数、预计算。GSM8K 包含 1319 个数学题目，每道题都有一个 step-by-step 解题步骤和 ground-truth 答案。GSM8K 中的问题通常比 MATH 中的问题更容易解决。此外，作者还用了竞赛级别 AIME 和 Odyssey-MATH 的问题来评估模型解决困难问题的能力。

（2）实施细节

在SFT微调阶段：

1）首先，使用 229K SFT 数据对基础模型进行微调，得到 SFT 模型；

2）其中，对 7B 模型进行 3 epoch 微调，对大于 30B 模型进行 2 epoch 的微调；

3）超参数配置，batch_size = 256, learning_rate = 5e-6, 优化器使用 AdamW, 学习率调整使用 linear decay 策略，warmup_ratio = 0.03，DeepSpeed ZeRO3 使用CPU。

在 Step-DPO 阶段：

1）在上面得到的 SFT 模型的基础上进行优化；

2）对 7B 模型训练 8 epoch，对大于 30B 模型进行 4 epoch 训练；

3）超参数，batch_size = 128, learning_rate = 5e-7, β = 0.5 对于 72B 的模型（其他模型设置为 0.4）。优化器 AdamW, 学习率衰减策略 cosine learning rate, warmup_ratio = 0.1 。

（3）实验结果

Step-DPO 可以在SFT模型或现有的开源 Instruct 模型上进行微调，仅通过 10K 数据以及数百个训练步数，即可取得大幅度数学能力提升。

其中 Qwen2-72B-Instruct + Step-DPO 取得了 70.8% 和 94.0% 准确率在 MATH 和 GSM8K 数据集上。