
LLM COT
文章平均质量分 72
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models
大语言模型(LLMs)越来越依赖冗长的推理链来解决复杂任务。然而,这种试错方法往往会导致高昂的计算成本和错误传播,早期的错误可能会使后续步骤偏离正轨。为解决这些问题,我们引入了Meta-Reasoner框架,它通过让大语言模型 “思考如何思考” 来动态优化推理时的推理过程。受人类元认知和双过程理论的启发,Meta-Reasoner就像一个战略顾问,将高级指导与逐步生成过程分离。原创 2025-03-05 09:22:03 · 343 阅读 · 0 评论 -
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?
最近,类似 o1 的模型备受关注,这些模型通过生成冗长的思维链(CoT)推理步骤来提升现有大语言模型(LLMs)的推理能力。在本文中,为了理解这些长思维链的质量,并衡量现有大语言模型对这些长思维链的批判能力,我们引入了 DeltaBench。它包含了不同类似 o1 的模型(如 QwQ、DeepSeek - R1)针对不同推理任务(如数学、代码、通用推理)生成的长思维链,用于衡量在长思维链推理中检测错误的能力。原创 2025-03-04 10:00:00 · 98 阅读 · 0 评论 -
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
大型语言模型(LLM),如OpenAI的o1,通过扩展测试时间计算和表现出类人的深度思维,在复杂的推理任务中表现出了非凡的能力。然而,我们发现了一种我们称之为“欠思考”的现象,即类似o1的LLM经常在不同的推理思维之间切换,而没有充分探索有希望的路径来达到正确的解决方案。这种行为会导致推理深度不足和性能下降,特别是在具有挑战性的数学问题上。为了系统地分析这个问题,我们在三个具有挑战性的测试集和两个具有代表性的开源类o1模型上进行了实验,揭示了频繁的思维转换与不正确的反应相关。原创 2025-03-01 09:00:00 · 18 阅读 · 0 评论 -
Great Models Think Alike and this Undermines AI Oversight
随着语言模型(LM)能力的进步,对人类来说,大规模评估和监督它们变得越来越困难。有希望其他语言模型可以自动化这两项任务,我们称之为“人工智能监督”。我们通过提出机会调整概率协议(CAPA)来研究模型相似性如何影响人工智能监督的两个方面:基于模型错误重叠的LM相似性度量。使用CAPA,我们首先证明LLM作为评判者的分数倾向于与评判者相似的模型,从而推广了最近的自我偏好结果。然后,我们研究了LM注释的训练,发现弱监督者和强学生模型之间的互补知识在从“弱泛化到强泛化”的过程中起着至关重要的作用。原创 2025-02-24 10:00:00 · 218 阅读 · 0 评论 -
Prompting Large Language Models with Rationale Heuristics for Knowledge-based Visual Question Answer
最近,大型语言模型(LLM)已被用于基于知识的视觉问答(VQA)。尽管之前的研究结果令人鼓舞,但之前的方法促使LLM直接预测答案,忽略了中间的思维过程。我们认为,现有的方法不能充分激活LLM的能力。我们提出了一个名为PLRH的框架,该框架通过基于知识的VQA的基本原理启发式来提示LLM。PLRH提示具有思维链(CoT)的LLM生成逻辑推理启发式,即中间思维过程,然后利用逻辑推理启发式来激励LLM预测答案。实验表明,我们的方法在OK-VQA和A-OKVQA上分别比现有的基线高出2.2和2.1以上。原创 2025-02-05 09:15:00 · 139 阅读 · 0 评论 -
Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems
最近,慢思维推理系统,如o1,在解决复杂推理任务方面表现出了显著的能力。这些系统在响应查询之前通常会进行一个扩展的思维过程,使它们能够生成更彻底、准确和合理的解决方案。这些系统主要由行业开发和维护,其核心技术未公开披露。作为回应,研究界越来越多的研究旨在探索这些强大推理系统背后的技术基础。在这些先前工作的基础上,本文提出了一份关于实现类o1推理系统的复制报告。我们引入了一个“模仿、探索和自我改进”框架,称为STILL-2,作为我们训练推理模型的主要技术方法。原创 2025-01-13 09:15:00 · 161 阅读 · 0 评论 -
Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning
大型语言模型(LLMs)在各种语言任务中表现出了非凡的能力,但解决复杂的推理问题仍然是一个挑战。虽然现有的方法,如思维链(CoT)和思维树(ToT),通过分解问题或构建提示来增强推理,但它们通常只执行一次推理,可能无法重新访问有缺陷的路径,从而影响准确性。为了解决这个问题,我们提出了一种新的推理框架,称为思想森林(FoT),它集成了多个推理树,以利用集体决策来解决复杂的逻辑问题。FoT利用稀疏激活策略来选择最相关的推理路径,提高了效率和准确性。原创 2024-12-23 09:15:00 · 394 阅读 · 0 评论 -
Training Large Language Models to Reason in a Continuous Latent Space
大型语言模型(LLM)仅限于“语言空间”中的推理,它们通常用思维链(CoT)来表达推理过程,以解决复杂的推理问题。然而,我们认为语言空间可能并不总是推理的最佳选择。例如,大多数单词token主要用于文本连贯性,而不是推理所必需的,而一些关键token需要复杂的规划,并对LLM构成巨大挑战。为了探索LLM推理在不受限制的潜在空间中而不是使用自然语言的潜力,我们引入了一种新的范式COCONUT(连续思维链)。我们利用LLM的最后一个隐藏状态作为推理状态的表示(称为“连续思维”)。原创 2024-12-21 09:15:00 · 109 阅读 · 0 评论 -
CRITIC-COT: BOOSTING THE REASONING ABILITIES OF LARGE LANGUAGE MODEL VIA CHAIN-OFTHOUGHTS CRITIC
自我批评已成为提高LLM推理能力的重要机制。然而,目前的方法主要涉及基本提示,未经进一步训练,往往过于简单化,导致准确性有限。而且,缺乏对LLM批评能力与其任务解决绩效之间关系的深入研究。为了解决这些问题,我们提出了 Critic-CoT,这是一种新颖的框架,通过逐步的 CoT 推理格式和远程监督数据构建,将LLM推向类似 System-2 的批评家能力,而不需要人工注释。原创 2024-09-23 09:33:50 · 250 阅读 · 0 评论 -
Chain of Thought Empowers Transformers to Solve Inherently Serial Problems
指示模型生成一系列中间步骤,即思维链(CoT),是提高大型语言模型(LLM)在算术和符号推理任务中的准确性的一种非常有效的方法。然而,CoT背后的机制尚不清楚。这项工作通过表现力的视角,为CoT对仅解码器Transformer的强大功能提供了理论上的理解。从概念上讲,CoT使模型能够执行固有的串行计算,这是Transformer所缺乏的,尤其是在深度较低的情况下。在给定输入长度n的情况下,之前的研究表明,具有有限精度poly(n)嵌入大小的恒定深度Transformer只能解决没有CoT的TC0。原创 2024-09-19 16:30:48 · 304 阅读 · 1 评论 -
Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought
我们介绍了一种新的框架,LM Guided CoT,它利用轻量级(即<1B)语言模型(LM)来指导推理任务中的黑盒大(即>10B)LM。具体来说,轻量级LM首先为每个输入实例生成一个基本原理。然后,冻结的大型LM会被提示根据轻量级LM生成的基本原理预测任务输出。我们的方法是资源高效的,因为它只需要训练轻量级的LM。我们通过1)知识蒸馏和2)从面向理论基础和面向任务的奖励信号中强化学习来优化模型。我们使用多跳提取式问答(QA)基准、HotpotQA和2WikiMultiHopQA来评估我们的方法。原创 2024-07-24 09:56:36 · 148 阅读 · 0 评论 -
Injecting Salesperson’s Dialogue Strategies in Large Language Models with Chain-of-Thought Reasoning
最近对对话系统和语料库的研究主要集中在两大类:面向任务(TOD)和开放域(聊天)对话。TOD系统帮助用户完成特定任务,而开放域系统旨在创建引人入胜的对话。然而,在现实世界的场景中,用户意图通常会在交互过程中显现出来。最近的一项研究引入了SalesBot,它模拟了从闲聊到任务导向场景的对话,以培训销售代理。不幸的是,最初的数据缺乏平稳的过渡和连贯的长时间对话,导致销售与客户互动的自然性较差。为了解决这些问题,本文提出了改进的数据集SalesBot 2.0。原创 2024-07-12 09:21:58 · 82 阅读 · 0 评论 -
ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting
思维链提示可以增强大型语言模型的推理能力,成为解决复杂推理任务的主要方法。现有的CoT合成方法通常侧重于更简单的推理任务,从而导致低质量和不一致的CoT提示。为了应对这一挑战,我们对CoT提示进行了实证研究,并介绍了CoTGenius,这是一种用于自动生成高级CoT提示的新框架。CoTGenius是基于三种主要的进化策略开发的,即复杂化、多样化和特定化,以及两种过滤机制:进化成功判断和正确性验证。原创 2024-06-07 22:34:44 · 251 阅读 · 0 评论 -
Stepwise Self-Consistent Mathematical Reasoning with Large Language Models
使用大型语言模型进行复杂的数学推理是困难的,主要是由于多步骤推理的复杂性。这一过程的主要挑战包括(1)选择关键的中间结果来推进程序,以及(2)对潜在解决方案的有限探索。为了解决这些问题,我们引入了一种新的算法,即逐步自洽思想链(SSC-CoT)。SSCCoT采用了一种基于各种推理链的交集来选择中间步骤的策略。此外,SSC-CoT使模型能够通过查询包括相关领域知识的知识图谱来发现关键的中间步骤。为了验证SSC CoT,我们提出了一个新的数据集TriMaster100,专门用于复杂的三角问题。原创 2024-03-28 19:52:54 · 221 阅读 · 0 评论 -
Zero-Shot Chain-of-Thought Reasoning Guided by Evolutionary Algorithms in Large Language Models
大型语言模型(LLM)通过应用零样本思维链(CoT)提示,在不同的任务中表现出了显著的性能,并表现出了令人印象深刻的推理能力。然而,由于句子前缀在预训练阶段的演变性质,在所有任务实例中使用相同CoT提示的现有零样本CoT提示方法可能不是最佳的。在本文中,我们介绍了一种新颖的零样本提示方法,该方法利用进化算法动态生成LLM的不同提示。我们的方法包括初始化两个CoT提示,基于LLM执行进化操作以创建不同的集合,并利用LLM为给定问题选择合适的CoT提示。原创 2024-03-20 11:20:31 · 95 阅读 · 0 评论