📖 引言
在人工智能领域,尤其是大语言模型(LLMs)的研究中,如何让模型更好地反映人类的多样化偏好一直是一个重要的课题。近年来,诸如通过人类反馈强化学习(RLHF)和直接偏好优化(DPO)等方法,已经在偏好对齐上取得了一定的进展。然而,这些方法往往假设群体内存在统一的偏好,而忽视了偏好分布的多样性,尤其是在偏好冲突的情况下。这种偏好多样性挑战不仅导致了对少数派偏好的忽视,还可能使模型的输出过于偏向于主流意见。
为了解决这一问题,本文提出了一种名为 群体分布式偏好优化(Group Distributional Preference Optimization, GDPO) 的新框架。GDPO通过引入“信念”(belief)的概念,利用分布校准和信念条件偏好对齐两个核心目标,旨在捕捉群体内的偏好分布多样性,并在生成文本时反映这些多样性。本文将详细解析GDPO的算法实现和训练过程,深入探讨其在偏好对齐中的优势。
🧠 背景与相关工作
偏好对齐的现状
当前的偏好对齐方法(如RLHF和DPO)主要依赖于成对的人类偏好数据,通过优化奖励函数来增强模型生成符合人类偏好的输出。然而,这些方法通常假设偏好是统一的,将偏好冲突视为噪声。这种假设在面对多样化偏好时显得力不从心。例如,当一个群体中存在对某一问题的截然不同的看法时,传统方法可能会倾向于主流偏好,忽略少数派的声音。
多元化偏好对齐的挑战
多元化偏好对齐的目标是让模型能够学习并生成反映群体内多样化意见的输出。尽管已有研究尝试通过少样本学习或分布式优化方法来解决这一问题,但这些方法在捕捉真实世界中复杂的语言和对话场景时仍存在局限性。此外,这些方法的计算成本较高,难以在大规模数据上推广应用。
🛠 GDPO算法详解
GDPO的核心思想是通过引入“信念”这一中间变量,将偏好对齐过程分解为两个阶段:信念分布校准和信念条件偏好对齐。以下是GDPO算法的详细实现过程。
1️⃣ 信念的定义与建模
在GDPO中,信念被定义为个体对某一立场的认同程度。信念是偏好的基础,直接影响人类的偏好决策。例如,在讨论“全球化对国家的影响”时,不同个体的信念可能包括“非常好”、“有利有弊”等,这些信念决定了他们对具体回答的偏好。
为了在模型中表示信念,GDPO使用了一个信念集合 B B B,并通过以下方式将语言生成过程分解为两个部分:
p θ ( y ∣ x ) = ∑ b ∈ B p θ ( y ∣ b , x ) p θ ( b ∣ x ) p_\theta(y|x) = \sum_{b \in B} p_\theta(y|b, x) p_\theta(b|x) pθ(y∣x)=∑b∈Bpθ(y∣b,x)pθ(b∣x)
其中:
- p θ ( b ∣ x ) p_\theta(b|x) pθ(b∣x) 表示模型对输入 x x x 的信念分布预测;
- p θ ( y ∣ b , x ) p_\theta(y|b, x) pθ(y∣b,x) 表示在给定信念 b b b 和输入 x x x 的情况下,生成输出 y y y 的概率。
2️⃣ 数据结构与目标函数
GDPO的训练数据由三部分组成:输入 x x x,目标信念分布 p B ∗ p^*_B pB∗,以及信念对应的响应集合 y B y_B yB。目标是通过优化以下两个损失函数,使模型能够准确预测信念分布并生成与信念一致的响应。
(a) 信念分布校准损失
信念分布校准的目标是让模型预测的信念分布 p θ ( b ∣ x ) p_\theta(b|x) pθ(b∣x) 接近目标分布 p B ∗ p^*_B pB∗。具体实现为:
ℓ cal. ( p θ ( b ∣ x ) , p B ∗ ) = KL ( p θ ( b ∣ x ) ∥ p B ∗ ) − log p θ ( b ∣ x ) \ell_\text{cal.}(p_\theta(b|x), p^*_B) = \text{KL}(p_\theta(b|x) \| p^*_B) - \log p_\theta(b|x) ℓcal.(pθ(b∣x),pB∗)=KL(pθ(b∣x)∥pB∗)−logpθ(b∣x)
其中, KL \text{KL} KL 表示Kullback–Leibler散度,用于衡量两个分布之间的差异。
(b) 信念条件偏好对齐损失
在给定信念的条件下,GDPO通过扩展DPO的损失函数来对齐偏好:
ℓ pref ( y c ≻ y r , b c , x ) = log σ ( β log p θ ( y c ∣ x , b c ) p ref ( y c ∣ x , b c ) − β log p θ ( y r ∣ x , b c ) p ref ( y r ∣ x , b c ) ) \ell_\text{pref}(y_c \succ y_r, b_c, x) = \log \sigma \left( \beta \log \frac{p_\theta(y_c | x, b_c)}{p_\text{ref}(y_c | x, b_c)} - \beta \log \frac{p_\theta(y_r | x, b_c)}{p_\text{ref}(y_r | x, b_c)} \right) ℓpref(yc≻yr,bc,x)=logσ(βlogpref(yc∣x,bc)pθ(yc∣x,bc)−βlogpref(yr∣x,bc)pθ(yr∣x,bc))
其中:
- y c y_c yc 和 y r y_r yr 分别表示被选择和被拒绝的响应;
- β \beta β 是一个平衡参数;
- σ \sigma σ 是sigmoid函数。
© 总损失函数
GDPO的总损失函数结合了上述两个部分:
ℓ gdpo ( x , p B ∗ , y B ; θ ) = ℓ cal. ( p θ ( b ∣ x ) , p B ∗ ) + E b c ∼ B , y c , y r ∼ y B ℓ pref ( y c ≻ y r , b c , x ) \ell_\text{gdpo}(x, p^*_B, y_B; \theta) = \ell_\text{cal.}(p_\theta(b|x), p^*_B) + \mathbb{E}_{b_c \sim B, y_c, y_r \sim y_B} \ell_\text{pref}(y_c \succ y_r, b_c, x) ℓgdpo(x,pB∗,yB;θ)=ℓcal.(pθ(b∣x),pB∗)+Ebc∼B,yc,yr∼yBℓpref(yc≻yr,bc,x)
3️⃣ 训练流程
GDPO的训练分为以下几个步骤:
- 信念分布初始化:通过统计数据或人工设定,确定目标信念分布 p B ∗ p^*_B pB∗。
- 信念校准:使用信念分布校准损失优化模型的信念预测能力。
- 偏好对齐:在每个信念条件下,优化模型生成的响应,使其与目标偏好一致。
- 联合优化:结合信念校准和偏好对齐损失,逐步调整模型参数。
🔬 实验与分析
GDPO在两个任务上验证了其性能:可控意见生成和可控电影评论生成。
1️⃣ 可控意见生成
数据集与设置
- 使用GlobalOpinionQA数据集生成模拟对话。
- 信念分布基于国家统计数据(如美国、巴基斯坦等)。
结果分析
- 信念分布校准:GDPO显著缩小了预测信念分布与目标分布之间的差距(平均Jensen-Shannon距离降低)。
- 少数派偏好优化:GDPO在训练过程中成功提升了少数派偏好的奖励边距,避免了DPO中少数派奖励边距持续下降的问题。
2️⃣ 可控电影评论生成
数据集与设置
- 使用Amazon电影评论数据集,目标是生成与评分一致的评论。
- 信念为评分(1到5分)。
结果分析
- 分布对齐:GDPO在信念分布校准和生成一致性上均优于DPO。
- 生成质量:GDPO生成的评论更符合目标评分,表现出更高的一致性。
🏆 结论与展望
GDPO通过引入信念分布校准和信念条件偏好对齐,成功解决了现有方法在偏好多样性对齐上的局限性。实验结果表明,GDPO在捕捉和反映群体内多样化偏好方面具有显著优势。
然而,GDPO仍有一些局限性,例如对多群体偏好对齐的扩展性和对隐式信念的依赖。未来的研究可以探索以下方向:
- 多群体偏好对齐:开发能够同时对齐多个群体偏好的统一框架。
- 隐式信念挖掘:利用自然语言处理技术从数据中自动提取隐式信念。
GDPO的提出为多样化偏好对齐开辟了新的路径,其潜在应用包括社会调查、政策模拟和多文化对话生成等领域。正如本文标题所言,“没有偏好被遗忘”,GDPO让每一种声音都能被倾听和尊重。
📚 参考文献
- Durmus, E., et al. (2023). GlobalOpinionQA: A multi-choice question-answer dataset focused on global issues.
- Ouyang, L., et al. (2022). Reinforcement Learning from Human Feedback (RLHF).
- Rafailov, D., et al. (2024). Direct Preference Optimization (DPO).
- Zhao, J., et al. (2023). Few-shot learning techniques for group preference distributions.
- Biderman, S., et al. (2023). Pythia models for general-purpose language modeling.