Met大模型论文 | 推出连续思维链Coconut——突破自然语言界限,以连续思维链提升LLM复杂推理能力

1. Training Large Language Models to Reason in a Continuous Latent Space

大语言模型(LLMs)的推理通常被限制在“语言空间”中,它们一般通过链式思维(Chain-of-Thought, CoT)表达推理过程,以解决复杂的推理问题。然而,我们认为语言空间可能并不总是最有利于推理的。例如,大多数词汇标记主要用于文本连贯性,并非对推理至关重要,而一些关键标记则需要复杂的规划,给LLMs带来了巨大挑战。

为了探索LLM在不受限的潜在空间中进行推理的潜力,而不是使用自然语言,我们引入了一种新的范式——Coconut(连续思维链)。我们利用LLM的最后一层隐藏状态作为推理状态的表示(称为“连续思维”)。与将其解码为词汇标记不同,我们将这种状态直接反馈给LLM作为后续输入嵌入,在连续空间中继续处理。实验表明,Coconut可以在多个推理任务上有效增强LLM的表现。

这种新颖的潜在推理范式促使了高级推理模式的出现:连续思维可以编码多个替代的下一步推理步骤,使模型能够执行广度优先搜索(BFS)来解决问题,而不像CoT那样过早地锁定在一个单一的确定路径上。在某些需要大量回溯规划的逻辑推理任务中,Coconut超越了CoT,且在推理过程中使用的思考标记更少。

通过Coconut方法,LLM能够在不依赖于自然语言的情况下,更加灵活和高效地处理复杂推理任务,这不仅拓展了LLM的应用范围,也为构建更智能的AI系统开辟了新路径。

论文:https://arxiv.org/pdf/2412.06769

2. Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation

在强化学习(RL)领域中,将记忆整合到智能体(agents)对于许多任务至关重要。特别是在需要利用过去信息、适应新环境以及提高样本效率的任务中,记忆起着关键作用。然而,“记忆”这一术语涵盖了一系列广泛的概念,并且由于缺乏统一的方法来验证智能体的记忆能力,这导致了对智能体记忆能力的错误判断,阻碍了与其它具有记忆增强功能的智能体进行客观比较。

本文旨在通过提供关于智能体记忆类型的实用而精确的定义来简化RL中的记忆概念,这些定义受到认知科学的启发,涵盖了长期记忆与短期记忆、陈述性记忆与程序性记忆等区别。基于这些定义,我们对不同类别的智能体记忆进行了分类,提出了一种稳健的实验方法来评估RL智能体的记忆能力,并标准化了评估过程。此外,我们通过使用不同的RL智能体进行实验,实证展示了遵循所提议方法论的重要性,并展示了违反该方法论可能导致的问题。

我们的研究表明,按照建议的方法论进行智能体记忆能力的评估是至关重要的,它不仅有助于更准确地理解智能体如何使用和处理记忆,还促进了RL领域的研究进展和技术应用。

论文:https://arxiv.org/pdf/2412.06531

3. ProcessBench: Identifying Process Errors in Mathematical Reasoning

由于语言模型在解决数学问题时经常出错,自动化识别推理过程中的错误变得越来越重要,这对于它们的大规模监管至关重要。在本文中,我们提出了ProcessBench,用于衡量识别数学推理过程中错误步骤的能力。该数据集包含3,400个测试用例,主要集中在竞赛级和奥林匹克级别的数学问题上。每个测试用例都包含一个逐步的解决方案,并由人类专家标注了错误的位置。模型需要识别最早出现错误的步骤,或者得出所有步骤均正确的结论。

我们在ProcessBench上进行了广泛的评估,涉及两种类型的模型:过程奖励模型(PRMs)和批评模型(critic models)。对于后者,我们提示通用语言模型逐步步评价每个解决方案。我们的研究得出了两个主要观察结果:

现有的PRMs通常无法推广到比GSM8K和MATH更具有挑战性的数学问题上。它们的表现不如批评模型(即被提示的通用语言模型),也逊色于我们基于PRM800K数据集直接微调的自己的PRM。 最佳的开源模型QwQ-32B-Preview展示了与专有模型GPT-4o相匹敌的批评能力,尽管它在推理能力方面仍落后于专门化的o1-mini模型。

我们希望ProcessBench能够促进未来关于推理过程评估的研究,为语言模型的大规模监管铺平道路。

论文:https://arxiv.org/pdf/2412.06559

4. Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation

近年来,将图像理解和生成统一到大语言模型(LLMs)中引起了显著的兴趣增长。核心挑战在于开发一种多功能的视频分词器,该分词器能够捕捉视频的空间特征和时间动态,从而为LLMs提供表示,并且这些表示可以进一步解码成真实的视频片段,以实现视频生成。

在本文中,我们引入了Divot,一种基于扩散过程的视频分词器(Diffusion-Powered Video Tokenizer)。Divot利用扩散过程进行自监督视频表示学习。我们认为,如果一个视频扩散模型可以通过采用视频分词器的特征作为条件来有效地去噪视频片段,那么这个分词器就成功捕捉到了稳健的空间和时间信息。此外,视频扩散模型本身充当了解码器的角色,可以从表示中解码出视频。

基于Divot分词器,我们通过视频到文本的自回归和文本到视频的生成提出了Divot-Vicuna,通过使用高斯混合模型对连续值Divot特征的分布进行建模。实验结果表明,当我们把基于扩散的视频分词器与预训练的LLM结合时,在各种视频理解和生成基准测试中都达到了具有竞争力的表现。经过指令调优的Divot-Vicuna还在视频故事叙述方面表现出色,能够生成交错的叙事和相应的视频。

论文:https://arxiv.org/pdf/2412.04432

最后分享

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值