在DeepSeek横空出世之前,大型语言模型(LLMs)在推理能力上长期表现糟糕,输出的内容质量堪忧。直到去年DeepSeek通过强化学习(RL)训练LLMs实现质的飞跃,这场革命才引爆媒体。
虽然DeepSeek问世前,已有大量研究者致力于提升LLMs推理能力的技术(如思维链推理),但这些方法与DeepSeek虽有相似之处,却因缺乏强化学习机制而效果逊色。
这不禁让人思考:如果将强化学习注入视觉语言模型(VLMs),能否复制这样的性能飞跃?
尽管DeepSeek精于文本推理,但视觉推理领域至今仍未诞生同等水平的模型。DeepSeek的出现,让我们看到了无限可能。
本文将深度剖析视觉推理这一难题:先回顾强化学习时代的研究路径,再探索如何用强化学习解锁这个领域巨大的研究潜能。传统方法在视觉符号理解、多模态对齐等维度存在瓶颈,而强化学习的自我改进机制、动态策略优化等特性,或将彻底改写视觉推理的游戏规则。
一、不通过RL学习视觉推理能力
首先什么是视觉推理能力?
视觉推理是一种能够准确回答涉及复杂推理和图像问题的能力。
目标是让VLM模型在回答与图像相关的问题之前进行推理和思考。我们可以让大型语言模型(LLM)按照以下逐步推理的方法操作:
- 总结(summary):模型对任务进行总结。
- 说明 (caption):模型用文字描述图像。
- 推理 (Reasoning):模型“思考”并提供分析以帮助其回答问题。
- 结论(Conclusion):模型最终回答问题。
这被称为“思维链”(Chain-of-Thought, CoT)过程,因为模型在得出答案之前被迫逐步思考。通过这种方式,模型的推理能力得到提升,更频繁地得出正确答案。
本质上,希望训练我们的LLM每次遇到问题时都能遵循这一精确的过程。每个阶段对应相应的标签,以确保模型按照步骤进行思考。
但是,我们如何训练大型语言模型(LLM)输出这样的回答呢?我们可以采用以下两种方法。
二、实现思维链的两种方法
1、直接法
一般来说,我们只需将单个提示转换成一系列提示,以实现链式思维(Chain-of-Thought)过程。这是最直接的方法。假设我们希望LLaVA在推理方面变得更擅长,在这种情况下,我们会将一个提示转换成一系列提示,鼓励大型语言模型遵循各个步骤以得出答案。
这种方法有很多优点:
它简单,没有复杂的编码需求。 它很高效,因为我们没有进行任何训练。
但主要的问题是:我们并没有真正改变模型的能力——只是改变了用来引导模型发挥能力的方法。
那么,我们是否可以以某种方式真正改变大型语言模型(LLM)的能力呢?
2、采用COT-SFT
此外,大家还可以进行有监督微调SFT,以训练大型语言模型(LLM)具备链式思考(Chain-of-Thought)能力。
如果我们想要改变LLM的固有特性,而不是只调整提示方式,该怎么办?我们可以通过有监督微调来实现。
假设我们拥有一个包含图像-问题-答案三元组的数据集。每个样本大致如下:
现在,目标是训练LLM,使其能够自动以前述的逐步思考格式回答问题。为了达到这个目的,我们需要生成一个包含符合预期格式答案的数据集。因此,我们使用方法一调动GPT-4生成概要、标题、推理和结论的过程。
我们用来引导GPT-4生成这些信息的方法如下所示:
接着,我们利用包含六个信息片段的最终数据样本(图像、问题、真实答案、摘要、标题和推理)对LLaVA进行微调,迫使这个大型语言模型学习以这种特定的格式回答与图像相关的问题。
我们将这个最终训练好的模型称为LLaVA-o1,它是一个具有推理能力的视觉-语言模型,能够在回答图像相关问题时进行推理。
3、优缺点总结
去年十一月,一些研究人员采用SFT开发了“LLaVA-o1”。
LLava-o1 链接: https://arxiv.org/pdf/2411.10440v1
但考虑到目前推理模型的现状,这种方法存在一些主要的限制:
- LLaVA-o1永远无法超越GPT-4o的性能,因为我们使用由GPT-4o生成的AI数据来训练另一个AI。这极大地限制了这种方法的潜力,因为它依赖于像GPT-4o这样更先进的AI的存在,才能实现类似LLaVA-o1的LLM的创建。
- 有监督微调(SFT)很少具有泛化能力。SFT倾向于记忆所提供的数据样本,而不是在数据上进行泛化。这意味着,在这个案例中,只在特定一组图像上进行微调,可能只会提升对这些图像的表现,而对其他图像没有帮助。而强化学习(RL)通常具有更好的泛化能力。
- 我们将推理方法硬编码到LLM中。我们直接告诉模型该如何推理——先提供摘要,然后是标题,等等。然而,有些问题可能用不同的步骤会更好。这种方法就像教学生具体的推理过程,而不是让他们自己探索。
尽管如此,这种方法仍有一些优点:
- 虽然LLaVA-o1无法超越GPT-4o,但它确实优于大多数规模相当的模型,包括GPT-4o-mini。
- 虽然硬编码推理方法未必在所有情况下都有效,但它仍然能显著提升性能,证明在大量场景下,这种特定的推理程序实际上是足够的。
三、通过RL学习视觉推理能力
在DeepSeek引入他们用于训练推理模型的新型强化学习(RL)方法之后,这种方法相较于传统方法的优势变得更加明显。我们将首先探讨如何将RL应用于提升VLM模型的推理能力,然后再分析这种方法如何优于之前讨论的方法。
1、用RL训练视觉-语言模型
对于任何训练过程,我们都需要定义一个目标问题,让LLM去解决,并用与该问题相关的数据进行训练。我们将选择图像分类问题作为例子。图像分类问题很简单——给定一张图片,我们希望根据其视觉内容为其赋予一个标签。
2、训练样本示例
在我们的数据集中,每个训练样本包含三部分信息:一张图片、一条标题(描述),以及一个问题(其答案是这个描述)。
我们目标是将图像和问题输入到大型语言模型(LLM)中,并期望LLM的输出尽可能与该标题(描述)匹配。
3、奖励函数
在这类强化学习(RL)训练过程中,通常有两类奖励:
- 正确性奖励:如果大型语言模型(LLM)根据问题正确分类图像并输出正确答案(例如前面例子中的“狗”),则给予+1的奖励。
- 格式奖励:如果LLM在标签内输出其思考过程,并在标签内给出最终答案,则会因遵守格式而获得奖励。这鼓励LLM在回答前“思考”,这是这些RL训练策略中的关键环节。
通过强制使用标签,我们确保LLM能够明确思考,在盲目作答之前考虑多种可能性。这项技术已被证明可以帮助LLM更好地推理、得到正确答案。
4、训练过程
我们利用上述奖励机制为大型语言模型(LLM)提供激励,并通过训练过程调整其权重,使得LLM能够自动改变其行为,以优化获得正确答案的能力。这一方法已经被证明能够显著提升模型在文本推理中的能力,也有望在视觉推理方面取得类似的效果。
5、优点
强化学习(RL)相较于之前的方法具有一些关键优势:
- 我们不再使用来自一个人工智能(AI)的不干净数据来训练另一个AI。而是通过实现奖励函数,作为一种干净的信号来提升AI的性能。这种方法在理论上没有性能的限制,也不受到其他AI性能的制约。
- RL比监督微调(SFT)具有更好的泛化能力。这是因为LLM只是通过目标奖励函数进行学习,寻找能够优化奖励函数的行为,从而具有更强的泛化能力。
我们没有在LLM中硬编码特定的推理方法。这意味着模型不仅能够自主学习推理策略,还能根据不同问题学会选择最适合的推理方法,就像人类一样。
四、如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】