
大模型论文阅读解析
文章平均质量分 90
持续分享前沿大模型的相关阅读解析记录
王哥儿聊AI
对大模型相关的论文进行阅读解析,欢迎大家多多交流投稿自己的工作
欢迎大家关注我的公众号:大模型论文研习社
展开
-
SPC:通过对抗性博弈,让LLM左右互搏提升性能
SPC旨在通过对抗性自博弈游戏来评估大模型(LLM)的推理步骤,从而消除对人工步骤级标注的需求。该方法的核心思想是利用两个角色:一个“狡猾”生成器(Sneaky Generator)和一个步骤评价器(Step Critic),通过强化学习不断优化这两个角色的能力。原创 2025-05-08 19:30:41 · 585 阅读 · 0 评论 -
ReasonIR:基于多样化的合成数据,针对通用推理任务训练的检索器
我们提出了 REASONIR-8B,这是首个专门针对通用推理任务训练的检索器。现有的检索器在推理任务上表现有限,部分原因是现有的训练数据集侧重于与文档直接相关的简短事实性查询。我们开发了一个合成数据生成流程,针对每篇文档,该流程生成一个具有挑战性且相关的查询,以及一个看似相关但最终无用的困难负样本。原创 2025-05-07 09:33:10 · 616 阅读 · 0 评论 -
ReasonIR:针对通用推理任务训练的检索器
我们提出了 REASONIR-8B,这是首个专门针对通用推理任务训练的检索器。现有的检索器在推理任务上表现有限,部分原因是现有的训练数据集侧重于与文档直接相关的简短事实性查询。我们开发了一个合成数据生成流程,针对每篇文档,该流程生成一个具有挑战性且相关的查询,以及一个看似相关但最终无用的困难负样本。通过在合成数据和现有公共数据的混合数据上进行训练,R。原创 2025-05-07 10:00:00 · 1204 阅读 · 0 评论 -
GenCLS++:通过联合优化SFT和RL,提升生成式大模型的分类效果
在提示中添加每个目标类别的文本定义,帮助模型更好地理解类别含义。原创 2025-05-04 22:26:42 · 1176 阅读 · 0 评论 -
LUFFY:结合强化学习RL和SFT各自训练优势,让模型边学边练,从而平衡Zero-RL训练中的模仿和探索!!
最近在大型推理模型(LRMs)方面的进展表明,通过简单的基于规则的奖励进行强化学习(RL),可以涌现出复杂的行为,例如多步推理和自我反思。然而,现有的零强化学习(zero-RL)方法本质上是“在策略”的,仅限于学习模型自身的输出,无法获得超出其初始能力的推理能力。原创 2025-05-03 11:08:56 · 850 阅读 · 0 评论 -
SplitReason:在复杂步骤借助更大尺寸模型推理,1.5B+32B,实现准确率28%提升+8倍速度提升
大型语言模型(LLM)的推理过程往往会产生比简单语言建模任务更长的标记生成序列。这种更长的生成长度反映了推理的多步骤和组合性质,并且通常与更高的解决方案准确性相关。从效率角度来看,更长的标记生成加剧了LLM解码阶段固有的顺序性和内存受限问题。然而,并非推理过程的所有部分生成难度都相同。我们利用这一观察结果,将推理过程中最具挑战性的部分卸载到一个更大、能力更强的模型中,而大部分生成工作则由一个更小、更高效的模型完成;此外,我们还训练较小的模型识别这些困难部分,并在需要时独立触发卸载。原创 2025-04-28 20:45:56 · 671 阅读 · 0 评论 -
SMART:大模型在关键推理步骤辅导小模型,在保持高推理效率的同时,显著提升小模型的推理能力!!
小型语言模型(SLM)的推理能力有限,这使得人们对其是否适合需要深度、多步骤逻辑推理的任务产生了怀疑。原创 2025-04-27 21:45:52 · 483 阅读 · 0 评论 -
CoT-RAG:结合知识图谱和RAG提升模型推理能力
虽然思维链(CoT)推理提高了大型语言模型(LLMs)在复杂任务中的表现,但它仍然面临两个主要挑战:完全依赖 LLMs 生成推理链的可靠性较低,以及自然语言推理链对 LLMs 推理逻辑的干扰。为了解决这些问题,原创 2025-04-24 10:00:00 · 765 阅读 · 0 评论 -
DioR :动态检索增强生成,基于自适应认知检测与上下文检索优化,显著减少幻觉和提高推理能力
动态检索增强生成(Dynamic Retrieval-augmented Generation,RAG)在缓解大型语言模型(LLMs)生成过程中的幻觉问题方面取得了巨大成功。然而,现有的动态RAG方法在两个关键方面存在显著局限性:一是缺乏有效的机制来控制检索触发条件;二是缺乏对检索内容的有效审查。原创 2025-04-22 13:01:53 · 806 阅读 · 0 评论 -
JudgeLRM:基于GRPO训练的面向判断评估任务推理大模型,显著提升在深度推理的判断任务中性能!!
大型语言模型(LLMs)作为评估者的出现,为人类标注提供了一种可扩展的替代方案,但现有的监督微调(SFT)方法在需要复杂推理的领域往往表现不足。本研究探讨了LLM评估者是否真正从增强的推理能力中受益。通过对评估任务的推理需求进行详细分析,我们发现SFT的性能提升与推理需求样本的比例呈负相关,这突显了SFT在这些场景中的局限性。为了解决这一问题。原创 2025-04-20 10:57:08 · 815 阅读 · 0 评论 -
重新探究类o1模型推理能力:越长的推理CoT输出,效果反而下降!
大型语言模型(LLMs)在测试时扩展(test-time scaling)方面取得了进展,例如OpenAI的o1系列通过在推理过程中扩展计算资源分配来提升推理能力。然而,后续模型如QwQ、DeepSeek-R1(R1)和LIMO虽然复制了这些进展,但这些模型是否真正具备测试时扩展能力仍有待深入研究。原创 2025-04-19 18:21:54 · 945 阅读 · 0 评论 -
NoThinking vs Thinking:推理模型无需思考也能有效
最近的大型语言模型(LLMs)显著提升了推理能力,主要是通过在生成过程中包含一个明确且冗长的“思考”过程来实现的。在本文中,我们质疑这种明确的思考过程是否真的必要。原创 2025-04-18 22:17:18 · 1113 阅读 · 0 评论 -
基于成对比较的RL奖励机制,显著减少推理模型在简单问题上的回复长度!!!
链式思维(Chain of Thought,CoT)推理能够提升语言模型的性能,但往往会在简单问题上导致低效的“过度思考”。我们发现,现有的直接惩罚推理长度的方法未能考虑到不同问题的复杂性差异。原创 2025-04-18 10:00:00 · 693 阅读 · 0 评论 -
CoRanking:基于DPO对齐大小模型排序偏好,进行协同重排序,显著提升性能和效率!!
大型语言模型(LLMs)在列表式排序任务中表现出了卓越的性能。然而,这种卓越性能通常依赖于大规模参数(例如GPT-4)以及重复的滑动窗口过程,这带来了显著的效率挑战。在本文中,原创 2025-04-16 10:00:00 · 570 阅读 · 0 评论 -
ReaRAG:基于迭代构建的推理CoT训练,显著提升模型事实和推理能力!
大型推理模型(LRMs)展现出了卓越的推理能力,但主要依赖于参数化知识,这限制了其事实准确性。尽管最近的研究为基于强化学习(RL)的LRMs配备了检索能力,但它们存在过度思考和推理不够稳健的问题,降低了其在问答(QA)任务中的有效性。为了解决这一问题,原创 2025-04-13 10:45:43 · 453 阅读 · 0 评论 -
SWiRL:基于推理数据合成和强化学习训练,显著提升大模型的多步推理和工具使用能力!
强化学习已被证明可以提升大型语言模型的性能。然而,传统的强化学习方法,例如人类反馈强化学习(RLHF)或人工智能反馈强化学习(RLAIF),都将问题视为单步决策问题。随着研究重点逐渐转向更复杂的推理和代理任务,语言模型需要在生成解决方案之前进行多步文本生成、推理和与环境的交互。我们提出了一种针对多步优化场景的合成数据生成和强化学习方法。这种方法称为逐步强化学习(Step-Wise Reinforcement Learning,SWiRL),它迭代地生成多步推理和工具使用数据,然后从这些数据中学习。原创 2025-04-12 18:03:25 · 854 阅读 · 0 评论