Causal and Reasoning
文章平均质量分 80
该专栏主要整理LLM causal和reasoning相关的paper
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2025_NIPS_Active Reasoning in an Open-World Environment
近年来,视觉-语言学习领域通过整合海量世界知识,在完整信息问答数据集上取得了显著成功。然而,大多数模型均以被动方式运行,仅基于预存储的知识响应问题。与之形成鲜明对比的是,人类具备主动探索、积累信息并利用新获取知识与既有知识进行推理的能力,能够应对信息不完全的问题。为填补这一空白,我们提出了 🔍 Conan——一个用于评估主动推理能力的交互式开放世界环境。🔍 Conan 支持主动探索,并促进多轮溯因推理,其场景类似于《我的世界》等丰富的开放世界设定。原创 2026-06-08 10:30:00 · 16 阅读 · 0 评论 -
2025_NIPS_CLadder: Assessing Causal Reasoning in Language Models
本文聚焦大型语言模型(LLMs)的形式化因果推理能力评估,核心解决现有研究多关注常识性因果知识、缺乏对形式化因果推理规则遵循的问题。作者提出新NLP任务(自然语言中的因果推理)、构建CLADDER数据集(10K样本,覆盖因果阶梯三层任务),并设计CAUSALCOT提示策略。实验显示,CLADDER对LLMs极具挑战性,CAUSALCOT能将GPT-4准确率提升8.37个百分点至70.40%,且模型性能随因果阶梯层级升高而递减,揭示了LLMs在高阶因果推理中的局限性。因果推理能力被广泛认为是智能的核心特征。原创 2026-06-02 11:30:00 · 468 阅读 · 0 评论 -
2025_NIPS_Parsel Algorithmic Reasoning with Language Models by Composing Decompositions
尽管大型语言模型(LLM)在推理任务中取得了近期成功,但它们在生成复杂程序等分层多步推理任务中仍面临挑战。对于这类任务,人类通常会从高层算法设计入手,逐步实现每个部分。我们提出了 Parsel,一个支持通过代码 LLM 自动实现和验证复杂算法的框架。借助 Parsel,我们能将算法任务自动分解为分层的自然语言函数描述,然后通过测试搜索可能的函数实现组合。我们证明 Parsel 可应用于需要分层推理的多个领域,包括程序合成和机器人规划。原创 2026-05-27 11:30:00 · 20 阅读 · 0 评论 -
2025_NIPS_Self-Verifying Reflection Helps Transformers with CoT Reasoning
先进的大型语言模型(LLMs)在思维链(CoT)推理中常进行反思,自我验证当前解决方案的正确性并探索替代方案。然而,近期研究发现LLMs在CoT中检测错误的能力有限,反思为何能带来实证性能提升仍不明确。为解决这一问题,本文提出极简推理框架,支持小型Transformer在无自然语言的情况下实现基础自验证反思,确保分析清晰度并降低大规模实验成本。理论上,我们证明:若验证误差得到适当约束,自验证反思能保证推理性能提升。原创 2026-04-24 11:30:00 · 26 阅读 · 0 评论 -
2025_NIPS_ChatVLA-2: Vision-Language-Action Model with Open-World Reasoning
本文聚焦机器人领域的视觉-语言-动作(VLA)模型,针对现有VLA系统在微调过程中易丢失预训练视觉-语言模型(VLM)核心能力(如开放世界推理、数学推理、空间推理等)的问题,提出了ChatVLA-2模型。该模型通过动态混合专家(Dynamic MoE)架构和两阶段训练策略,在保留VLM预训练知识的同时,实现了推理与机器人动作的有效对齐。数学匹配游戏:机器人识别白板上的数学方程,从候选卡片中选择正确答案并放置,评估模型的OCR、数学推理和操作能力;玩具放置任务。原创 2026-04-27 07:30:00 · 475 阅读 · 0 评论 -
2025_NIPS_How do Transformers Learn Implicit Reasoning?
近期研究表明,大型语言模型(LLMs)能够进行隐式多跳推理——无需显式表述中间步骤即可生成正确答案,但这一能力背后的机制仍未被充分理解。本文通过在受控符号环境中从零训练Transformer模型,探究此类隐式推理能力的形成过程。分析结果揭示了一个三阶段发展轨迹:初始阶段为记忆阶段,随后是分布内泛化阶段,最终达到跨分布泛化阶段。研究发现,原子三元组的训练并非必需,但能加速学习进程;而第二跳泛化能力的形成依赖于训练中对特定组合结构的查询级暴露。原创 2026-04-22 14:30:00 · 23 阅读 · 0 评论 -
2025_NIPS_Matching Markets Meet LLMs: Algorithmic Reasoning with Ranked Preferences
大型语言模型(LLMs)的兴起推动了推理任务的进步,从程序合成到科学假设生成均有涉猎,但它们在组合领域处理排序偏好和结构化算法的能力仍未得到充分探索。本文研究匹配市场这一核心框架——其广泛应用于资源分配、拼车等场景,需要协调个体排序偏好以确保稳定结果。我们在一系列基于偏好的推理任务(从稳定匹配生成、不稳定性检测、不稳定性解决到细粒度偏好查询)上评估了7个最先进的模型,系统揭示它们在处理排序输入时的逻辑和算法局限。原创 2026-04-21 09:30:00 · 230 阅读 · 0 评论 -
2025_NIPS_From Sequence to Structure: Uncovering Substructure Reasoning in Transformers
近期研究表明,大型语言模型(LLMs)具备解决图推理任务的能力。值得注意的是,即便图结构嵌入在文本描述中,LLMs 仍能有效回答相关问题。这引发了一个核心疑问:纯解码器 Transformer 架构如何理解底层图结构?为解答该问题,我们从子结构提取任务切入,解析 Transformer 的内部机制并分析输入查询的影响。具体而言,通过实证结果与理论分析,我们提出诱导子结构过滤(ISF)视角,用于刻画多层 Transformer 中的子结构识别过程。原创 2026-04-19 10:30:00 · 109 阅读 · 0 评论 -
2025_NIPS_Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning
近年来的研究表明,让模型通过更长的思维链(CoT)投入更多时间思考,能够显著提升其在复杂推理任务中的表现。尽管当前研究仍在探索通过延长大型语言模型(LLM)的思维链长度来增加测试时计算量的益处,但我们关注到当前对测试时缩放的追求背后隐藏着一个潜在问题:过度缩放思维链长度是否会对模型的推理性能产生不利影响?我们在数学推理任务上的探索揭示了一个意外发现:在特定领域中,使用更长的思维链进行缩放确实会损害LLM的推理性能。此外,我们发现不同领域存在不同的最优缩放长度分布。原创 2026-04-17 09:30:00 · 26 阅读 · 0 评论 -
2025_NIPS_Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning
基于策略的方法目前在大语言模型(LLM)推理的强化学习(RL)流程中占据主导地位,而基于价值的方法尚未得到充分探索。本文重新审视了经典的贝尔曼残差最小化范式,提出轨迹贝尔曼残差最小化(TBRM)算法——该算法自然地将这一思想适配到LLM中,形成一种简单有效的离线策略算法。TBRM利用模型自身的对数几率(logits)作为Q值,优化单一的轨迹级贝尔曼目标函数,无需评论家模型、重要性采样比率或裁剪机制,且每个提示仅需一次轨迹采样即可运行。原创 2026-04-19 07:30:00 · 27 阅读 · 0 评论 -
2025_NIPS_Demystifying Reasoning Dynamics with Mutual Information: Thinking Tokens are Informatio...
本文从信息论视角探究大型推理模型(LRMs)的内部推理机制,核心发现是互信息峰值(MI Peaks)现象——LRMs推理过程中,特定步骤的中间表示与正确答案的互信息(MI)会突然显著提升。这些峰值对应表达反思、过渡的“思考令牌”(如“Hmm”“Wait”“Therefore”),且此类令牌对推理性能至关重要。基于该发现,作者提出两种无训练优化方法:表征循环(RR)和基于思考令牌的测试时扩展(TTTS),均有效提升了LRMs在数学推理等任务上的性能。原创 2026-04-14 07:30:00 · 124 阅读 · 0 评论 -
2025_NIPS_MIR-Bench: Can Your LLM Recognize Complicated Patterns via Many-Shot In-Context Reasoning?
从示例中识别模式并应用于新场景的能力是通用智能的核心能力,心理学和人工智能研究者已对其展开广泛研究。现有许多基准用于评估大语言模型(LLMs)的此类能力,但它们多聚焦于少示例(通常少于10个)场景,且缺乏对长上下文海量信息聚合能力的评估。另一方面,LLMs不断增长的上下文长度催生了新的多示例上下文学习(ICL)范式,无需昂贵且低效的微调,仅通过数百至数千个示例即可应对新任务。然而,多示例评估大多集中于分类任务,而“大海捞针”(NIAH)等主流长上下文LLM任务通常不需要整合海量信息的复杂智能。原创 2026-04-08 08:30:00 · 140 阅读 · 0 评论 -
2026_ICLR_REASONING SCAFFOLDING: DISTILLING THE FLOW OF THOUGHT FROM LLMS
该文章聚焦于自然语言处理中的少样本学习(Few-Shot Learning)问题,针对现有方法在数据稀缺场景下泛化能力不足、依赖大量预训练数据或复杂提示工程的局限,提出了一种新型的少样本学习框架(具体名称需结合模型细节,文中核心围绕“高效利用有限样本+轻量化适配”展开)。原创 2026-04-02 11:30:00 · 31 阅读 · 0 评论 -
2025_NIPS_ROVER: Recursive Reasoning Over Videos with Vision-Language Models for Embodied Tasks
视觉语言模型(VLMs)在各类图像理解任务中展现出令人印象深刻的能力,但在需要对视频中的长序列相机帧进行推理的场景中仍存在不足。这限制了它们在具身场景中的实用性——此类场景要求在任务执行的每个时刻,都能基于连续的视觉输入流对长帧序列进行推理。为解决这一局限,我们提出ROVER(递归视频推理框架,Reasoning Over VidEo Recursively),该框架能使模型将长时程视频轨迹递归分解为对应轨迹内较短子任务的片段。原创 2026-03-31 10:30:00 · 41 阅读 · 0 评论 -
2025_NIPS_Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks
大型语言模型(LLMs)在通过生成形式化规范普及自动推理方面展现出巨大潜力。然而,存在一个根本性矛盾:LLMs是概率性的,而形式化验证需要确定性保证。本文通过全面研究LLM生成的形式化产物中的失效模式和不确定性量化(UQ),解决了这一认识论鸿沟。我们对五个前沿LLM的系统评估表明,基于可满足性模理论(SMT)的自动形式化对准确率具有领域特异性影响(逻辑类任务提升34.8%,事实类任务下降44.5%),而令牌概率熵等现有UQ技术无法识别这些错误。原创 2026-03-21 10:30:00 · 21 阅读 · 0 评论 -
20205_NIPS_Chain of Execution Supervision Promotes General Reasoning in Large Language Models
构建稳健且通用的推理能力是大型语言模型(LLMs)发展的核心目标。近年来,越来越多的研究将代码作为丰富的训练资源,因其固有的逻辑结构和多样化的推理范式(如分治、拓扑排序和枚举)。然而,代码中的推理逻辑通常是隐含的,且与语法细节或实现噪声相互交织,直接使用原始代码进行训练并非最优选择。为解决这一问题,我们提出TracePile——一个包含260万个样本的大规模数据集,它将代码执行过程转化为显式、逐步的思维链风格推理过程,我们称之为“执行链(Chain of Execution, CoE)”。原创 2026-03-21 09:30:00 · 17 阅读 · 0 评论 -
2025_NIPS_FlexAC : Towards Flexible Control of Associative Reasoning in Multimodal Large Language Mo
本文聚焦多模态大型语言模型(MLLMs)在忠实性与创造性之间的固有权衡问题——不同任务对关联推理强度的需求各异,但现有方法缺乏灵活调节该强度的机制,限制了模型在事实类和创意类场景中的适应性。研究首先通过层分析和干预实验,揭示了MLLMs关联行为的核心机制:1)中间层是塑造模型关联倾向的关键;2)修改中间层表示可有效调节关联推理强度;3)幻觉输出可用于推导引导关联调节的导向向量。基于这些发现,作者提出。原创 2026-03-21 07:30:00 · 25 阅读 · 0 评论 -
2025_NIPS_The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning
熵最小化(EM)训练模型将概率质量更集中于其最有信心的输出。我们表明,仅这一简单目标,无需任何标注数据,就能大幅提升大语言模型(LLMs)在高难度数学、物理和编程任务上的性能。我们探索了三种方法:(1)EM-FT 类似于指令微调,最小化token级熵,但基于模型生成的无标注输出;(2)EM-RL:以负熵作为唯一最大化奖励的强化学习;(3)EM-INF:推理时调整logits以降低熵,无需任何训练数据或参数更新。原创 2026-03-15 07:30:00 · 40 阅读 · 0 评论 -
A Very Big Video Reasoning Suite
视频模型的快速发展主要集中在视觉质量上,其推理能力尚未得到充分探索。视频推理将智能根植于时空一致的视觉环境中,这种环境超越了文本天然能够捕捉的范畴,支持对连续性、交互性和因果关系等时空结构的直观推理。然而,由于缺乏大规模视频推理训练数据,系统研究视频推理及其缩放行为受到了阻碍。为填补这一空白,我们提出了VBVR(Very Big Video Reasoning)数据集——一个规模空前的资源库,包含遵循原则性分类法的200个精选推理任务,以及超过100万个视频片段(规模约为现有数据集的三个数量级)。原创 2026-03-13 10:30:00 · 177 阅读 · 0 评论 -
Does Your Reasoning Model Implicitly Know When to Stop Thinking?
大型推理模型(LRMs)的最新进展通过长思维链(CoT)显著提升了复杂推理任务的性能。然而,这种方法往往导致大量冗余,损害计算效率并在实时应用中造成显著延迟。近期研究表明,更长的推理链通常与正确性无关,甚至可能影响准确率。在对这一现象的深入分析中,我们意外发现并实证验证:LRMs 隐含知道合适的思考停止时机,但这一能力被当前的采样范式所掩盖。基于此观察,我们提出 SAGE(自我感知引导的高效推理)——一种新型采样范式,用以释放这种高效推理潜力。原创 2026-03-13 07:30:00 · 33 阅读 · 0 评论 -
2025_NIPS_SymRTLO: Enhancing RTL Code Optimization with LLMs and Neuron-Inspired Symbolic Reasoning
寄存器传输级(RTL)代码优化对于在综合早期阶段提升数字电路的效率和性能至关重要。基于综合反馈的手动改写虽能产出高质量结果,但耗时且易出错。大多数现有编译器方法难以处理复杂的设计约束。基于大语言模型(LLM)的方法已成为解决这些挑战的潜在方案,但这类方法往往难以确保生成代码与给定提示(prompt)的一致性。本文提出 SymRTLO,一种神经符号框架,将 LLM 与符号推理相结合,实现 RTL 代码的高效优化。原创 2026-03-12 12:30:00 · 45 阅读 · 0 评论 -
2025_NIPS_FGBench: A Dataset and Benchmark for Molecular Property Reasoning at Functional Group-Leve
该研究聚焦于大型语言模型(LLMs)在化学领域的分子性质推理能力,针对现有数据集多关注分子层面预测、忽略官能团(FG)细粒度信息的缺陷,提出了FGBench数据集研究背景:官能团是分子中决定物理化学性质的关键原子组,现有分子性质数据库缺乏官能团与分子性质的明确关联,导致LLMs难以进行细粒度结构-性质关系推理,限制了其在分子设计、药物发现等场景的应用。数据集构建。原创 2026-03-11 07:30:00 · 127 阅读 · 0 评论 -
2025_NIPS_SCPILOT: Large Language Model Reasoning Toward Automated Single-Cell Analysis and Discover
我们提出SCPILOT,这是首个践行组学原生推理的系统性框架:大语言模型(LLM)以自然语言交互,同时直接检视单细胞RNA测序数据并按需调用生物信息学工具。SCPILOT将核心单细胞分析任务(即细胞类型注释、发育轨迹重建和转录因子靶向预测)转化为模型必须解决、论证并在需要时根据新证据修正的逐步推理问题。为衡量进展,我们发布SCBENCH基准套件,包含9个专家精选数据集和评估器,用于全面评估SCPILOT在不同LLM上的组学原生推理能力。原创 2026-03-10 08:30:00 · 411 阅读 · 0 评论 -
2025_NIPS_Who Reasons in the Large Language Models?
该研究聚焦大型语言模型(LLMs)推理能力的来源这一核心问题,通过提出一套名为“网络听诊器(Stethoscope for Networks, SfN)”的诊断工具集,探究模型内部模块的功能分工。核心假设是:训练良好的LLMs中,推理能力主要由Transformer多头自注意力(MHSA)模块中的输出投影层(o_proj)主导,而其他模块更侧重支撑流畅对话。Delta听诊器。原创 2026-03-04 10:30:00 · 34 阅读 · 0 评论 -
2025_NIPS_SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning
评估大型语言模型(LLM)推理(如链式思维)的逐步可靠性仍然具有挑战性,这是因为获取高质量的步骤级监督数据既困难又耗时。本文提出了一种名为自博弈评论器(Self-Play Critic, SPC)的新型方法:评论模型通过对抗性自博弈游戏进化其评估推理步骤的能力,无需人工步骤级标注。SPC通过微调基础模型的两个副本,使其分别扮演两个角色——“狡猾生成器”(刻意生成难以检测的错误步骤)和"评论器"(分析推理步骤的正确性)。这两个模型进行对抗性博弈:生成器旨在欺骗评论器,而评论器则致力于识别生成器的错误。原创 2026-03-03 10:30:00 · 446 阅读 · 0 评论 -
2025_NIPS_Test-Time Scaling with World Models for Spatial Reasoning
3D空间中的空间推理是人类认知的核心,也是导航、操作等具身任务不可或缺的能力。然而,最先进的视觉-语言模型(VLMs)在诸如预测自我中心运动后场景外观等简单任务中频繁受挫:它们只能感知2D图像,却缺乏3D动态的内部模型。因此,我们提出MindJourney,一种测试时扩展框架,通过将VLMs与基于视频扩散的可控世界模型耦合,赋予其缺失的3D推理能力。VLMs迭代规划简洁的相机轨迹,而世界模型在每个步骤合成对应的视图。随后,VLMs基于交互式探索过程中收集的多视角证据进行推理。原创 2026-03-02 09:30:00 · 47 阅读 · 0 评论 -
2025_NIPS_ThinkBench: Dynamic Out-of-Distribution Evaluation for Robust LLM Reasoning
ThinkBench 是一款针对大型语言模型(LLMs)推理能力的动态分布外(OOD)评估框架,核心解决数据污染和答案泄露导致的评估失真问题。框架通过场景级和攻击级半事实数据生成方法,构建了含2912个样本的OOD数据集(源自AIME数学题和GPQA科学题),统一支持推理型与非推理型模型评估。实验对16个LLMs和4个PRMs验证发现:多数模型推理鲁棒性不足,存在明显数据泄露(如AIME-500的OOD性能平均下降24.9%);推理型模型(如o1、o3、Deepseek-R1)表现更优,但仍需优化;原创 2026-02-26 12:30:00 · 29 阅读 · 0 评论 -
2025_NIPS_MRO: Enhancing Reasoning in Diffusion Language Models via Multi-Reward Optimization
该研究聚焦扩散语言模型(DLMs)推理性能不足的问题,核心原因是去噪步骤中掩码token独立生成,未能捕捉token间相关性(序列内相关性和序列间相关性)。为此提出多奖励优化(MRO)方法,通过设计针对性奖励函数、结合测试时缩放、拒绝采样和强化学习优化token相关性,并引入分步组奖励优化(SGRO)降低奖励方差。实验表明,MRO在数学、科学、逻辑三类推理任务中显著提升性能,同时减少去噪步骤、加快解码速度,缩小了与自回归大语言模型(LLMs)的推理性能差距。原创 2026-02-26 11:30:00 · 30 阅读 · 0 评论 -
2025_NIPS_Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers
大型语言模型(LLMs)可通过微调获取新知识,但这一过程呈现出一种令人困惑的双重特性:模型既能从新事实中显著泛化,又容易产生不正确信息的幻觉。然而,这一现象的原因仍未被充分理解。在本研究中,我们认为这两种行为均源于一种名为上下文外推理(OCR)的单一机制——即即使概念间无因果关联,模型仍能通过关联概念推导隐含结论的能力。我们在五个主流LLM上开展的实验证实,OCR确实会同时驱动泛化与幻觉,具体结果取决于关联的概念是否存在因果关系。为建立对这一现象的严谨理论理解,我们将OCR形式化为一项符号事实回忆任务。原创 2026-02-25 10:30:00 · 497 阅读 · 0 评论 -
2025_NIPS_Sherlock: Self-Correcting Reasoning in Vision-Language Models
推理型视觉语言模型(VLMs)在复杂多模态任务中展现出良好性能,但仍面临重大挑战:它们对推理错误高度敏感,需要大量标注数据或精准验证器,且难以泛化到特定领域之外。为解决这些局限,我们探索将自校正作为增强推理型VLMs的策略。首先,我们深入分析了推理型VLMs的自校正能力并识别关键不足。基于研究发现,我们提出Sherlock——一种自校正与自改进训练框架。Sherlock引入轨迹级自校正目标、基于视觉扰动的偏好数据构建方法,以及用于偏好调优的动态β参数。原创 2026-02-24 10:23:59 · 176 阅读 · 0 评论 -
2025_NIPS_ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs
过程奖励模型(PRM)近年来已成为监督大语言模型(LLM)中间推理步骤的强大框架。以往的PRM主要基于模型的最终输出响应进行训练,难以稳健地评估中间推理轨迹,尤其是在Deepseek-R1等前沿推理模型生成的“轨迹-响应”输出这一新兴场景中。本文提出了一种新型轨迹感知PRM——ReasonFlux-PRM,其专门设计用于评估“轨迹-响应”类型的推理轨迹。该模型融合了步级和轨迹级双重监督,能够针对结构化的思维链数据分配细粒度奖励。原创 2026-02-23 14:03:17 · 304 阅读 · 0 评论 -
2025_NIPS_QuestBench: Can LLMs ask the right question to acquire information in reasoning tasks?
大型语言模型(LLMs)在数学和逻辑等推理基准测试中已展现出令人印象深刻的性能。尽管许多研究工作大多假设任务定义明确,但现实世界中的查询往往信息不足,仅能通过获取缺失信息来求解。我们将这一信息收集问题形式化为带有缺失变量赋值的约束满足问题(CSP)。针对仅缺失一个必要变量赋值的特殊情况,我们可评估LLM识别最小必要提问的能力。本文提出QUESTBENCH基准集,包含一系列信息不足但最多通过一个问题即可求解的推理任务,具体包括:(1)Logic-Q:缺失一个命题的逻辑推理任务;原创 2026-02-11 07:30:00 · 150 阅读 · 0 评论 -
2025_NIPS_SPRINT: Enabling Interleaved Planning and Parallelized Execution in Reasoning Models
大型推理模型(LRMs)擅长处理复杂推理任务,但通常会生成冗长的顺序思维链,导致在得出最终答案前需要较长的推理时间。为解决这一挑战,我们提出了SPRINT——一种新颖的训练后框架与推理时框架,旨在使LRMs能够在推理过程中动态识别并利用并行化机会。SPRINT包含一个创新的数据整理管道,该管道将自然语言推理轨迹重组为长程规划和并行执行的结构化阶段。通过在少量此类整理数据上微调LRMs,模型学会在扩展推理过程中动态识别独立子任务,并有效并行执行这些任务。原创 2026-02-10 09:30:00 · 34 阅读 · 0 评论 -
2025_NIPS_RSafe: Incentivizing proactive reasoning to build robust and adaptive LLM safeguards
尽管经过刻意的安全对齐努力,大型语言模型(LLMs)仍存在漏洞,给用户和社会带来重大风险。为防范违反政策的内容风险,通过外部防护模型进行系统级审核——即设计用于监控LLM输入输出并拦截潜在有害内容的机制——已成为主流缓解策略。现有防护模型的训练严重依赖大规模人工标注数据集,且难以应对分布外威胁(如新兴有害类别或越狱攻击)。为解决这些局限,我们提出 RSafe,一种基于自适应推理的安全防护框架,通过引导式安全推理,在指定安全策略范围内提供稳健防护。原创 2026-02-07 11:30:00 · 54 阅读 · 0 评论 -
2025_NIPS_AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play
搜索增强型大语言模型(LLM)在复杂推理任务中常受限于低效的多跳检索和有限的推理能力。本文提出 AceSearcher,这是一种协同自玩框架,训练单个大语言模型交替扮演两个角色:分解者(将复杂查询拆解为子问题)和求解者(整合检索上下文生成答案)。AceSearcher 结合了针对搜索、推理和分解任务的多样化混合数据集的有监督微调,以及以最终答案准确性为优化目标的强化微调,无需依赖中间标注。原创 2026-02-07 07:30:00 · 73 阅读 · 0 评论 -
Code Execution as Grounded Supervision for LLM Reasoning
本文聚焦于提升大语言模型(LLMs)的推理能力,针对现有思维链(CoT)监督数据获取成本高、可靠性不足的问题,提出了一种借助代码执行确定性来生成高质量CoT监督数据的可扩展方法。该方法先从开源Python程序中提取包含中间变量值、执行顺序等信息的代码执行轨迹,再利用LLM将这些原始轨迹翻译成自然语言形式的CoT推理过程。在多个推理基准(如MATH500、BBH、AGIEval等)上的实验表明,此方法能有效赋予LLMs跨任务的迁移推理能力。原创 2026-01-30 13:30:00 · 41 阅读 · 0 评论 -
Decompositional Reasoning for Graph Retrieval with Large Language Models
本文聚焦于大语言模型(LLMs)在多跳推理和知识密集型任务(如复杂问答)中的局限性,提出了一种结合文本知识图谱(textual knowledge graphs)与分解推理(decompositional reasoning)的检索增强方法。将复杂问题分解为逻辑有序的子问题;基于子问题和原始复杂问题的加权相似性函数,检索相关文本子图;合并子图形成问题特定的知识图谱,指导LLM生成答案。原创 2026-02-01 08:30:00 · 41 阅读 · 0 评论 -
Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
高效 latent 推理框架:首次将文本思维链压缩为紧凑的、可 verbalize 的连续 latent 表示,在不损失推理能力的前提下解决延迟问题;偏好引导蒸馏机制:结合强化学习奖励信号,引导学生模型学习高质量推理模式,同时通过 verbalizer LLM 确保 latent 表示的可解释性;动作对齐的视觉规划蒸馏:通过轨迹级表示对齐,将教师模型的空间推理能力迁移到学生模型,解决纯文本蒸馏缺乏视觉-动作衔接的问题;推理-动作衔接设计。原创 2026-01-24 11:30:00 · 59 阅读 · 0 评论 -
2025_NIPS_Interpreting Arithmetic Reasoning in Large Language Models using Game-Theoretic Interactio
该研究聚焦大型语言模型(LLMs)算术推理的内部机制,提出用博弈论交互(game-theoretic interactions)解释LLMs的算术推理过程,核心是将LLM的输出分数拆解为输入词之间的多种交互作用,通过量化前向传播中编码的不同类型交互,揭示模型解决算术问题的内在逻辑。近年来,大型语言模型(LLMs)在算术推理方面取得了显著进步,但LLMs解决算术问题的内部机制仍不明确。本文提出利用博弈论交互来解释LLMs中的算术推理过程。原创 2026-01-18 10:30:00 · 207 阅读 · 0 评论 -
2025_NIPS_VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to
该研究聚焦无参考图像质量评估(NR-IQA)任务,提出了一种基于推理诱导的模型VisualQuality-R1,核心是通过强化学习排序(RL2R)方法训练,以契合视觉质量的内在相对性特征。研究背景:现有NR-IQA方法存在局限——基于监督微调(SFT)的VLM模型标注成本高、易过拟合且输出僵化;传统强化学习方法将质量评估视为回归任务,依赖数据集特定奖励设计,泛化性不足。核心设计。原创 2026-01-17 10:30:00 · 81 阅读 · 0 评论
分享