AI极客熊-CSDN博客

原创 OpenClaw-RL：让AI Agent在对话中自主学习进化

想象一下，你的AI助手每与你互动一次，就自动变得更懂你的偏好——无需额外标注，无需人工干预，仅仅是"在使用中学习"。这正是OpenClaw-RL带来的突破性范式：将每一次对话的"下一状态信号"转化为实时在线学习源，实现Agent的持续进化。

2026-03-13 21:48:28 566

原创 Dr. MAS：多智能体LLM系统的稳定强化学习训练方案

多智能体大语言模型系统通过角色专业化实现高级推理和工具使用，但如何对其进行可靠的强化学习后训练仍是一个巨大挑战。南洋理工大学的研究团队从理论上 pinpoint 了将群体强化学习扩展到多智能体LLM系统时训练不稳定的关键原因，并提出了简单有效的解决方案 Dr. MAS。

2026-03-12 09:14:25 254

原创 ThunderAgent_ 简单快速且程序感知的智能体推理系统

随着大语言模型（LLM）在复杂多轮智能体工作流中的广泛应用，如何高效处理这些工作流成为了一个关键挑战。ThunderAgent 提出了一个简单、快速且程序感知的智能体推理系统，通过统一的程序抽象和智能调度策略，实现了显著的吞吐量提升和资源优化。

2026-03-03 22:15:49 414

原创 CUDA Agent_ 大规模智能体强化学习赋能高性能CUDA内核生成

在现代深度学习领域，GPU内核优化是提升计算性能的关键环节，但长期以来需要深厚的硬件专业知识。本文介绍的CUDA Agent系统通过大规模智能体强化学习，成功实现了高性能CUDA内核的自动生成与优化，在KernelBench基准测试中超越了torch.compile等传统编译器系统，展现了AI驱动的系统优化新范式。

2026-03-02 23:00:47 768

原创 Forge框架_破解Agent RL扩展性_不可能三角_的创新之路

如何在大规模复杂真实Agent场景中实现可扩展的强化学习训练?MiniMax团队提出的Forge框架给出了令人瞩目的答案。该框架成功突破了系统吞吐量、训练稳定性和Agent灵活性之间的固有矛盾,通过灵活的系统架构、创新的算法设计、优化的异步调度和极致的训练推理效率,实现了支持超长上下文(200k tokens)、日均处理百万级样本的大规模RL训练系统。这一突破性工作直接推动了MiniMax M2.5模型的诞生,为工业级Agent RL系统的实际应用开辟了新路径。

2026-03-01 13:30:42 577

原创 Uni-DPO：统一动态偏好优化框架，让LLM训练更高效

这篇论文提出了一种新颖的统一动态偏好优化框架Uni-DPO，通过同时考虑数据内在质量和模型学习动态，自适应地调整训练样本权重，显著提升了LLM的性能。在文本理解任务中，经过Uni-DPO微调的Gemma-2-9B-IT在Arena-Hard上超越了领先的Claude 3 Opus 6.7个百分点，在数学和多模态任务中也展现出卓越表现。

2026-02-26 22:01:06 392

原创 GLM-5：从Vibe Coding到Agentic Engineering的范式跃迁

本文将介绍智谱AI与清华大学联合发布的下一代基础模型GLM-5，该模型在推理、编码和智能体能力方面取得重大突破，标志着AI从被动知识库向主动问题解决者的范式转变。

2026-02-24 23:55:27 1356

原创从经验到技能：S KILL RL框架让LLM智能体实现自我进化

大语言模型（LLM）智能体在复杂任务中展现出惊人的能力，但它们往往孤立运行，无法从过往经验中学习。传统的基于记忆的方法主要存储原始轨迹，这些轨迹冗余且充满噪声，阻碍了智能体提取高层可复用的行为模式。本文介绍的SKILLRL框架通过自动技能发现和递归进化，填补了原始经验与策略改进之间的鸿沟。该框架在ALFWorld、WebShop和七个搜索增强任务上取得了最先进性能，比强基线方法提升超过15.3%，并且在任务复杂度增加时保持鲁棒性。

2026-02-12 22:04:12 768

原创 GUI智能体如何应对环境变化_——首个GUI持续学习框架GUI-AiF详解

在当今数字化时代,GUI智能体(Graphical User Interface Agents)能够通过自然语言指令在各类数字应用中执行操作,为用户提供极大便利。然而,现实世界的数字环境是不断变化的——新的操作系统版本发布、平台间切换、设备升级带来分辨率变化等。这些变化会导致在静态环境中训练的智能体性能显著下降。本文介绍的GUI-AiF框架是首个针对GUI智能体的持续学习框架,通过创新性的奖励机制使智能体能够在动态变化的GUI环境中保持稳定性能,为解决这一关键问题提供了突破性方案。

2026-02-09 23:23:24 707

原创小参数大智慧：Qwen3-Coder-Next如何用3B激活参数实现高效编码Agent

小参数大智慧：Qwen3-Coder-Next如何用3B激活参数实现高效编码Agent

2026-02-07 00:08:54 375

原创 LLM-in-Sandbox：让大语言模型通过代码沙盒激发通用智能

如何让大语言模型进一步突破能力边界？这篇论文提出了一种全新的范式——LLM-in-Sandbox，通过为LLM提供代码沙盒（即虚拟计算机）访问权限，激发其在非代码领域的通用智能。研究发现，强模型无需额外训练即可自发利用沙盒解决数学、物理、化学、生物医学等复杂任务；而通过LLM-in-Sandbox强化学习，弱模型也能显著提升探索能力，实现跨领域泛化。

2026-02-04 00:00:43 599

原创 Agent-RRM：用推理奖励模型打破智能体训练的奖励稀疏困境

在 Agentic Reinforcement Learning（Agentic RL）领域，一个长期存在的瓶颈是奖励信号的稀疏性。传统方法仅依赖基于最终结果的奖励，无法区分高质量的中间推理过程和完全错误的尝试。这种粗粒度的二元监督会掩盖成功中间步骤的价值，导致训练效果次优。本文提出的 Agent Reasoning Reward Model（Agent-RRM）通过生成结构化的多维反馈——包括显式推理轨迹、针对性批判和整体质量评分——为智能体轨迹提供了密集、多层次的监督信号，有效缓解了奖励稀疏问题。

2026-02-03 00:19:46 339

原创 MegaFlow：面向Agent时代的大规模分布式编排系统

随着交互式和自主AI系统的快速发展，我们正步入Agent时代。在软件工程和计算机使用等复杂任务上训练智能体，不仅需要高效的模型计算能力，更需要能够协调大量Agent-环境交互的复杂基础设施。MegaFlow作为大规模分布式编排系统，为Agent训练工作负载提供高效的调度、资源分配和细粒度任务管理能力，成功实现了数万个并发Agent任务的协调执行，同时保持高系统稳定性和高效的资源利用率。

2026-01-30 22:04:29 777

原创相对优势估计存在偏差——揭示群体相对强化学习中的系统性偏差问题

在大型语言模型的后训练时代,强化学习从验证者奖励(RLVR)已成为提升模型推理能力的核心范式。以GRPO为代表的群体相对算法因其无需训练评判网络的简洁设计而备受青睐。然而,本文揭示了这一方法中一个被长期忽视的根本性问题:群体相对优势估计存在系统性偏差。本文不仅提供了首个理论分析,证明该估计器对困难问题会系统性低估优势、对简单问题会过度估计优势,还提出了基于历史感知的自适应难度加权(HA-DW)方案来纠正这一偏差。实验表明,该方法在多个数学推理基准上持续提升性能,为RLVR训练提供了新的理论见解和实践指导。

2026-01-27 23:55:25 929

原创突破多奖励RL优化瓶颈_GDPO如何解决奖励信号坍塌问题

随着大语言模型能力的不断提升,用户不仅期望模型提供准确的回答,还希望在各种场景下展现出符合多样化人类偏好的行为。为了实现这一目标,强化学习管线开始引入多个奖励信号,每个奖励捕捉不同的偏好维度,共同引导模型向期望的行为方向发展。然而,现有工作直接应用GRPO算法处理多奖励组合,却未审视其适用性。本文将介绍GDPO(Group reward-Decoupled Normalization Policy Optimization),这一新方法通过解耦单个奖励的归一化,更好地保留了奖励间的相对差异,从而实现更精确的

2026-01-27 00:54:47 1039

原创 ET-Agent_ 通过行为校准激励有效的工具集成推理

在大型语言模型（LLMs）日益普及的今天，工具集成推理（Tool-Integrated Reasoning, TIR） paradigm 为解决复杂推理任务提供了新途径。然而，现有训练框架往往只关注答案准确性，忽略了行为模式的对齐。本文提出的 ET-Agent 框架通过自进化数据飞轮和行为校准训练，有效解决了 TIR 任务中的冗余和不足工具调用问题，在多个维度上显著提升了模型性能。

2026-01-22 00:24:19 779

原创超越LoRA：参数高效强化学习方法的全面评估与突破

随着大语言模型在数学推理等复杂任务中展现出卓越能力，基于可验证奖励的强化学习（RLVR）已成为进一步提升模型推理能力的主流范式。然而，面对计算资源密集的RL训练，如何选择最优的参数高效方法成为关键问题。本文首次对12种PEFT方法在RLVR场景下进行了系统性评估，挑战了默认使用标准LoRA的惯例，揭示了结构变体、SVD初始化策略和表达性下限等重要发现。

2026-01-13 22:46:56 716

原创 GenEnv：让AI智能体像人一样在_游戏_中成长

GenEnv框架通过在LLM智能体与可扩展的生成式环境模拟器之间建立难度对齐的协同进化博弈，实现了数据效率的显著提升。该框架将智能体训练视为一个两玩家课程游戏，通过动态调整任务难度来最大化学习信号，使7B参数模型在多个基准测试中性能提升高达40.3%。

2026-01-08 00:28:59 987

原创 STAgent：专为时空推理设计的智能代理模型

在现实世界的复杂任务中，如旅行规划、路线优化和地点推荐等，需要模型具备强大的时空理解能力和工具调用能力。本文介绍的STAgent是一种专门为此类任务设计的智能代理模型，通过构建稳定的工具环境、高质量的数据构建框架和级联训练配方，在保持通用能力的同时显著提升了在时空推理任务上的表现。该模型基于Qwen3-30B-A3B，通过三阶段优化流程实现了在TravelBench等基准测试上的优异性能。

2026-01-05 23:06:08 1109

原创 ROME_ 构建端到端智能体学习生态系统，打造下一代Agentic LLM

本文介绍了一个革命性的智能体学习生态系统(ALE)和基于其训练的ROME模型，该系统通过ROLL(训练框架)、ROCK(环境执行引擎)和iFlow CLI(智能体框架)三大组件的协同工作，实现了从数据生成、智能体执行到策略优化的完整闭环，为构建可靠的Agentic LLM提供了系统级基础设施。

2026-01-05 00:06:53 721

原创 vscode mac常用技巧—快捷键

本文总结了VS Code常用快捷键操作指南，主要包含以下内容：符号说明：列出了⌘(Command)、⌥(Option/Alt)、⇧(Shift)等常用修饰键的表示方法功能分类：通用操作（打开命令面板、新建窗口等）基础编辑（移动行、删除行、代码折叠等）搜索替换代码导航多光标操作多语言编辑编辑器管理文件管理界面显示控制调试功能集成终端操作格式说明：采用表格形式列出快捷键组合及其对应功能，部分不适用的快捷键已标注说明。

2026-01-03 23:50:17 982

原创解锁Agent RL训练新范式：ROLLART如何通过解耦基础设施实现大规模高效训练

随着大语言模型从被动逻辑推理向自主决策和长期规划演进,强化学习已成为推动这一变革的核心技术。然而,Agent RL训练面临着前所未有的基础设施挑战——计算密集型预填充阶段、带宽受限的解码阶段,以及有状态的CPU密集型环境模拟,这些高度异构的工作负载难以在单一架构下高效运行。本文介绍的ROLLART系统,通过创新性的解耦基础设施设计,实现了1.35-2.05倍的端到端训练时间加速,为大规模Agent RL训练提供了新的解决方案。

2025-12-31 01:05:25 830

原创激活被遗忘的训练信号：ERPO框架如何让大模型在数学推理中更进一步

随着大型语言模型在数学、编程等复杂推理任务中的表现日益出色，如何进一步提升其推理能力成为研究热点。本文介绍了一种创新的训练框架——ERPO（Explore Residual Prompts in Policy Optimization），通过巧妙利用训练过程中被"遗忘"的残余提示，显著提升了模型的数学推理性能，在多个基准测试中取得了显著改进。

2025-12-29 23:37:03 643

原创偏离主路径：RLVR在参数空间中的非主方向学习机制

大语言模型强化学习训练中的一个长期谜题即将被解开。为什么RLVR（Reinforcement Learning with Verifiable Rewards）似乎只修改了极少数参数却能带来显著的推理性能提升？这篇来自Meta AI的突破性研究揭示了稀疏性背后的真相——这并非真正的稀疏，而是一种深层的"模型条件优化偏置"。通过提出创新的三门理论，研究团队首次从参数空间角度系统解释了RLVR的学习动态，为理解强化学习与监督微调的本质差异提供了全新视角。

2025-12-28 15:31:47 642

原创突破性框架TRAPO：统一监督微调与强化学习的新范式，显著提升大语言模型推理能力

大语言模型的后训练方法正迎来重大突破！清华大学与蚂蚁集团联合提出的TRAPO框架通过创新性地统一SFT与RL训练，在数学推理任务上实现了显著性能提升。该框架解决了传统两阶段训练中的根本性矛盾，通过Trust-Region SFT和自适应专家指导机制，实现了更稳定、更高效的模型训练，为推理增强型LLMs发展开辟了新道路。

2025-12-25 00:03:33 760

原创揭秘语言模型内部策略：自底向上的强化学习优化新范式

大语言模型的强化学习一直被视为提升推理能力的核心技术，但传统方法将LLM视为单一整体策略，忽略了其内在机制。这篇论文通过深入分析Transformer残差流，发现了语言模型内部隐藏的"层次策略"和"模块策略"，并基于此提出了革命性的BuPO方法。研究发现，不同模型系列展现出截然不同的内部推理模式：Qwen系列呈现类似人类的渐进式推理，而Llama系列则表现出突然收敛特征。这一发现不仅为理解LLM内部工作机制提供了新视角，更为强化学习优化开辟了全新路径。

2025-12-24 00:12:23 1040

原创简约而不简单：JustRL如何用最简RL方案实现1.5B模型突破性性能

当整个强化学习领域都在追求复杂化时，一篇来自清华大学的论文提出了一个颠覆性的问题：这些复杂性真的必要吗？JustRL以一种极简的单阶段训练方法，在两个1.5B参数的推理模型上实现了当前最佳性能，同时仅使用复杂方法一半的计算资源。这项研究不仅挑战了现有的RL训练范式，更为整个领域提供了一个经过验证的简单基线。

2025-12-22 23:35:51 927

原创小米开源MiMo-V2-Flash：用1_2参数挑战DeepSeek-V3，代码Agent能力登顶开源榜首

小米LLM团队开源了MiMo-V2-Flash，一个仅309B总参数（15B激活）的MoE模型，在代码Agent任务上达到73.4%（SWE-Bench Verified），超越所有开源模型。更令人惊讶的是，它仅用DeepSeek-V3.2一半的参数，就实现了接近的推理和Agent能力。核心创新在于128-token极致激进的滑动窗口注意力架构，以及首创的Multi-Teacher On-Policy Distillation (MOPD)后训练范式，通过让学生模型从多个领域专家教师中在线蒸馏，完美继承各领

2025-12-18 00:46:47 752

原创 Tool-to-Agent_Retrieval：连接工具与智能体的统一检索框架，让大模型多智能体系统更高效

大语言模型多智能体系统正迎来一场革命性突破！最新研究提出的Tool-to-Agent Retrieval框架，通过将工具和智能体嵌入共享向量空间，实现了前所未有的检索效率提升。在LiveMCPBench基准测试中，该方法在Recall@5指标上提升19.4%，在nDCG@5指标上提升17.7%，为构建可扩展的LLM多智能体系统开辟了新路径。

2025-12-17 00:29:34 596

原创 ROLLMux：让大模型强化学习训练成本降低近一半的调度框架

在大模型强化学习（RL）后训练中，如何高效利用昂贵的GPU资源一直是工业界的痛点。传统的rollout-training分离架构虽然能匹配不同阶段的硬件需求，但严格的同步要求却让一半以上的GPU处于闲置状态。来自香港科技大学和阿里巴巴的研究团队提出了ROLLMux，一个通过phase级别多路复用技术，将RL训练成本效率提升1.84倍的集群调度框架。该系统已在328个H20 GPU和328个H800 GPU组成的生产环境中验证，实现了100% SLO达成率的同时大幅降低了资源成本。

2025-12-16 00:46:39 731

原创 MOA：多目标对齐框架——打造更强大的角色扮演智能体

角色扮演智能体(RPAs)需要同时掌握多种相互冲突的技能——遵循多轮指令、展示领域知识和保持一致的语言风格。这篇论文提出了MOA(Multi-Objective Alignment)框架，通过多目标优化策略，使8B模型在多个维度上匹配甚至超越GPT-4o和Claude等强大基线模型。研究展示了MOA在构建能够同时满足角色知识、人格风格、多样场景和复杂多轮对话需求的RPAs方面的巨大潜力。

2025-12-14 12:46:06 800

原创推理语言模型训练策略的协同作用：预训练、中间训练与强化学习的交互机制

近年来，强化学习技术在语言模型推理能力提升方面取得了显著进展，但后训练是否真正扩展了模型在预训练期间获得的推理能力仍存在争议。这项研究通过完全可控的实验框架，揭示了预训练、中间训练和强化学习后训练之间的因果贡献关系，为理解推理语言模型训练策略提供了重要基础。

2025-12-11 00:13:56 886

原创 Seer：突破性在线上下文学习系统，实现同步LLM强化学习97%性能提升

随着大语言模型（LLM）强化学习训练需求的快速增长，rollout阶段的性能瓶颈日益凸显。本文深入解读Seer系统——一个革命性的在线上下文学习框架，通过创新性地利用GRPO算法中同组请求的相似性特征，实现了同步RL训练的显著加速。Seer引入了三大核心技术：分割式rollout动态负载均衡、上下文感知调度和自适应分组投机解码，在保持算法保真度的同时，将端到端吞吐量提升74-97%，长尾延迟降低75-93%。

2025-12-09 01:14:12 741

原创 SAPO：软自适应策略优化——大语言模型强化学习训练的稳定新范式

强化学习已成为提升大语言模型推理能力的关键技术，但训练过程中的不稳定性问题长期困扰着研究者。阿里巴巴Qwen团队最新提出的SAPO（Soft Adaptive Policy Optimization）方法通过引入温度控制的软门控机制，巧妙地平衡了训练稳定性与学习效率。本文将深入解析这一突破性方法如何在保持序列连贯性的同时实现token级自适应，为大规模语言模型的RL训练开辟新路径。

2025-12-07 20:02:20 1247

原创 MiniRL：用LLM稳定强化学习的新范式与第一阶近似理论

这篇论文提出了一种新颖的强化学习与大型语言模型结合的理论框架，揭示了何时以及如何通过token级目标函数优化序列级奖励。通过数十万GPU小时的实验验证，论文系统性地分析了训练稳定性关键因素，为MoE模型的RL训练提供了实用指导方案。

2025-12-03 23:51:42 706

原创 DeepSeek-V3.2：开源大语言模型的新里程碑，在推理与智能体任务中突破性能边界

DeepSeek-V3.2作为最新开源大语言模型，通过创新的稀疏注意力机制、可扩展的强化学习框架和大规模智能体任务合成管道，成功缩小了开源与闭源模型之间的性能差距。该模型不仅在多个推理基准测试中与GPT-5表现相当，其高性能变体DeepSeek-V3.2-Speciale更在IMO 2025和IOI 2025等国际顶级竞赛中获得金牌水平表现，标志着开源LLM进入全新发展阶段。

2025-12-02 00:00:47 1043 1

原创 SkyRL-Agent：高效多轮LLM智能体训练框架，成本降低50%性能提升39.4%

随着强化学习在语言模型后训练中的应用日益广泛，如何高效训练能够进行多轮交互、长周期推理的工具增强智能体成为了一个重大挑战。本文介绍的SkyRL-Agent框架通过创新的异步管道调度和工具增强训练方法，成功训练出SA-SWE-32B模型，在SWE-Bench Verified基准测试中达到39.4%的Pass@1准确率，相比同等规模模型训练成本降低超过50%，为智能体训练领域带来了突破性进展。

2025-11-27 23:15:08 368

原创 STEP框架：基于成功率感知的轨迹高效策略优化，重塑多轮强化学习新范式

在AI智能体多轮交互领域，传统的轨迹级强化学习方法面临着效率低下和学习信号不准确的双重挑战。本文深入解析了来自小米、中国人民大学和武汉大学联合研究的突破性成果——STEP框架，该框架通过创新的成功率感知采样策略和步级优化机制，在OSWorld和AndroidWorld基准测试中实现了显著性能提升，为大规模语言模型智能体的训练提供了全新的解决方案。

2025-11-25 23:15:04 506

原创 AgentFold：革命性长时程网页智能体突破上下文管理瓶颈

随着人工智能技术的飞速发展，基于大语言模型的网页智能体展现出巨大的信息检索潜力，但它们在长时程任务中的效果一直受到上下文管理根本性权衡的制约。AgentFold的出现，为这一领域带来了革命性的突破，其创新的主动上下文管理模式让智能体在处理复杂任务时展现出前所未有的效率和准确性。

2025-11-23 22:43:32 127

原创突破OOD环境限制：SPA框架让LLM智能体通过自我博弈内化世界模型

大型语言模型作为智能体在处理分布外（OOD）环境时常常举步维艰。现实世界环境复杂且动态，受特定任务规则和随机性支配，这使得LLM难以将其内部知识与这些环境动态对齐。本文介绍了一种革命性的解决方案——SPA（Self Play Agent）框架，通过自我博弈监督微调让智能体首先内化环境的世界模型，然后利用这些知识进行高效决策。实验证明，该方法在Sokoban环境中将成功率从25.6%提升至59.8%，在FrozenLake环境中从22.1%提升至70.9%，为LLM智能体在OOD环境中的学习提供了全新范式。

2025-11-21 01:49:10 109

空空如也

空空如也