大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

最新推荐文章于 2025-04-29 16:32:38 发布

大语言模型

最新推荐文章于 2025-04-29 16:32:38 发布

阅读量1.1k

点赞数 17

文章标签：大模型 LLM 人工智能 transformer langchain AI大模型 RAG

本文链接：https://blog.csdn.net/2301_81940605/article/details/142467007

版权

在这里插入图片描述

偏好调整是将深度生成模型与人类偏好对齐的关键过程。本文对偏好调整及其与人类反馈的整合的最新进展进行了全面综述。文章分为三个主要部分：

介绍和预备知识：介绍强化学习框架、偏好调整任务、模型和跨不同模态（语言、语音、视觉）的数据集，以及不同的策略方法；
深入分析每种偏好调整方法：详细分析偏好调整中使用的方法；
应用、讨论与未来方向：探讨偏好调整在下游任务中的应用，包括不同模态的评估方法，以及未来研究方向的展望。

我们的目标是展示偏好调整与模型对齐的最新方法，提升研究人员和从业者对该领域的理解。我们希望能够激励更多人参与并推动这一领域的创新。

关键词：偏好调整、人类偏好、强化学习、多模态、多语言、大型语言模型、视觉语言模型、语音语言模型、生成模型、综述、DPO、RLHF。

1 引言

从人类反馈中学习是将生成模型与人类偏好对齐的重要步骤，旨在生成与人类语言和写作相似的输出。尽管生成模型在自监督学习中的学习能力强大，但这些模型经常误解指令，导致生成出现幻觉 (Ji 等, 2023a; Yao 等, 2023a)。此外，确保生成内容的安全性仍是这些模型面临的重大挑战。关于使用人类反馈进行偏好调整的广泛研究表明，对抗样本可以用来破解系统 (Rando 和 Tram`er, 2023; Wei 等, 2024)。理想情况下，生成模型需要受到控制，以确保其输出是安全的并且不会造成伤害。模型通常会表现出意外行为，例如编造事实 (Chen 和 Shu, 2023; Sun 等, 2024)，生成带有偏见或有害的文本 (Hartvigsen 等, 2022)，或未能遵循用户指令 (Ji 等, 2023b; Tonmoy 等, 2024)。此外，数据隐私的保护至关重要，以确保模型的安全运行并保护用户隐私 (Brown 等, 2022)。在文本到图像生成任务中，大规模模型常常难以生成与文本提示紧密对齐的图像 (Feng 等, 2022)，尤其是在组合图像生成 (Liu 等, 2022; Lee 等, 2023) 和连贯生成方面 (Liu 等, 2023a)。同样，在文本到语音任务中，Zhang 等 (2024a) 和 Chen 等 (2024a) 将主观人类评价整合到训练循环中，以更好地使合成语音符合人类偏好。

偏好调整已广泛应用于语言任务，通过训练指令调整的大型语言模型（LLM）来实现，例如 Llama (Touvron 等, 2023b; Dubey 等, 2024)，Phi (Abdin 等, 2024)，Mistral (Jiang 等, 2023a)，Nemotron (Parmar 等, 2024; Adler 等, 2024)，Gemma (Team 等, 2024)。诸如 GPT-4 (Achiam 等, 2023)，Gemini (Team 等, 2023; Reid 等, 2024)，Claude (Anthropic, 2024)，Command-R 和 Reka (Ormazabal 等, 2024) 等商业模型也利用了人类偏好对齐来提升其性能。LLM 的对齐提高了任务特定技能、连贯性、流畅性，并有助于避免不期望的输出。此外，多语言 LLM 的对齐研究也有所裨益，例如 Aya (Aryabumi 等, 2024; Ust¨un 等, 2024)，BLOOMZ 和 mT0 (Muennighoff 等, 2023)，以及区域性 LLM 如 Cendol (Cahyawijaya 等, 2024) 和 SEALLM (Nguyen 等, 2023)。实现 LLM 对齐的常见方法包括使用强化学习技术，通过最大化奖励来引导语言模型遵循偏好样本。通过人类反馈的强化学习（RLHF）(Christiano 等, 2017) 是最早用于使模型与人类偏好对齐的方法，进一步应用于深度学习领域，并通过其在 LLM 中的成功（Ouyang 等, 2022；Bai 等, 2022a）得到普及，采用了 PPO (Schulman 等, 2017)，REINFORCE (Kool 等, 2019)，在线定向偏好优化 (Guo 等, 2024a) 和监督微调 (SFT)-类方法 (Dong 等, 2023)。它通常包括三个关键方面：人类反馈收集、奖励建模和在线 RL 进行策略优化。然而，最近的方法允许在离线方式下与策略模型一起训练奖励模型，正如 DPO (Rafailov 等, 2024) 所展示的那样，并通过离线和在线策略的联合训练 (Zhao 等, 2023) 进行优化。此外，偏好调整还应用于视觉文本任务，已被证明能够通过图像和文本嵌入的对齐分数（使用预训练的视觉文本模型，如 CLIP (Radford 等, 2021) 和 CoCa (Yu 等, 2022a) 进行衡量）来改善图像和文本的表示 (Ramesh 等, 2022；Saharia 等, 2022；Yu 等, 2022b)。Wu 等 (2023c) 使用 LoRA (Hu 等, 2021) 对齐 Stable Diffusion (Lee 等, 2023)，这是一种视觉文本预训练模型。关于语音的应用尚未被广泛探索，相关文献中仅有少量工作。Zhang 等 (2024a) 研究了代码与文本之间的对齐。

本文对不同模态下的人类反馈偏好调整的最新进展进行了综述。它不仅提供了一个全面的介绍，包括相关基础知识以帮助读者熟悉这一主题，还对最新提出的方法进行了深入回顾和讨论。总结来说，本文包括以下贡献：

我们对语言、语音和视觉任务等不同模态的模型的偏好调整进行了全面概述，并扩展到所有现有的偏好调整方法，包括强化学习（RL）方法。
我们从现有文献中整理并系统化了偏好调整的框架和分类。
我们展示了偏好调整在使用人类反馈改善生成方面的各种应用，并描述了用于评估深度生成模型质量的自动和基于人类的评估方法。
我们讨论了偏好调整的机会和未来研究方向。

通过这篇综述，我们旨在展示偏好调整和生成模型对齐的最新方法，使研究人员和从业者能够更好地理解这一主题并进一步创新。

分类法

我们为所有偏好调整方法定义了以下类别，如表 2 所示。图 1 展示了我们在本综述文章中研究的五个类别，并描述如下：

在这里插入图片描述

采样
类似于强化学习（RL）文献，我们根据如何采样数据并使用它们进行训练或获取奖励对方法进行分类：离线和在线的人类对齐。这一分类与我们如何计算奖励并将其用于策略模型有关。在在线人类对齐设置中，智能体通过与环境交互收集一批样本，并使用它们更新策略。这些样本的奖励可以通过奖励模型收集，或由策略模型生成的样本获得。而在离线人类对齐设置中，数据来自于离线的人类演示。对于在线方法，我们还将这些方法分类为同策略（行为策略与优化策略相同）或异策略（行为策略与优化策略不同）。

模态
我们研究了偏好调整在不同模态中的使用，例如文本、语音、视觉、运动觉等。如果我们无法对其进行分类，则归为“其他”。在自然语言处理（NLP）的最新进展中，强化学习的理念已进一步扩展到语言和语音任务，甚至跨模态任务（如视觉-文本）。因此，按研究的模态（例如文本、语音、视觉、视觉-文本）对论文进行分类是非常重要的。

语言
我们探索了偏好调整在不同语言中的应用。在这种情况下，我们将方法分类为英语、非英语和多语言。

奖励粒度
在偏好调整中，奖励可以在不同的粒度水平上计算。粒度水平可扩展为两类：样本级和标记级。每种模态的标记级可能不同，例如在文本任务中，我们可以使用词汇中的子词作为标记；在视觉任务中，图像的片段可以作为标记。

在这里插入图片描述

偏好调整

在本节中，我们介绍了用于训练偏好调整生成模型的通用框架。如表 3 所示，偏好调整的训练框架通常从**监督微调（SFT）**阶段开始，在此期间，生成模型通过下一个标记预测任务进行训练，或者使用经过指令微调的模型作为基础初始化模型。SFT 的重点在于提升模型生成标记的能力，因为它引导模型如何响应输入提示。当模型能够正确生成流畅的文本序列后，通过强化学习（RL）进一步进行策略优化，使模型与偏好目标对齐。对齐的目的是引导模型根据偏好目标以适当的方式回答问题。这一步是确保模型生成与人类偏好一致的必要训练阶段，因此模型的行为会更接近人类的表现。值得注意的是，人类对齐阶段也可以与 SFT 进行联合训练。

在这里插入图片描述

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望