- 博客(193)
- 收藏
- 关注
原创 小米开源MiMo-V2-Flash:用1_2参数挑战DeepSeek-V3,代码Agent能力登顶开源榜首
小米LLM团队开源了MiMo-V2-Flash,一个仅309B总参数(15B激活)的MoE模型,在代码Agent任务上达到73.4%(SWE-Bench Verified),超越所有开源模型。更令人惊讶的是,它仅用DeepSeek-V3.2一半的参数,就实现了接近的推理和Agent能力。核心创新在于128-token极致激进的滑动窗口注意力架构,以及首创的Multi-Teacher On-Policy Distillation (MOPD)后训练范式,通过让学生模型从多个领域专家教师中在线蒸馏,完美继承各领
2025-12-18 00:46:47
574
原创 Tool-to-Agent_Retrieval:连接工具与智能体的统一检索框架,让大模型多智能体系统更高效
大语言模型多智能体系统正迎来一场革命性突破!最新研究提出的Tool-to-Agent Retrieval框架,通过将工具和智能体嵌入共享向量空间,实现了前所未有的检索效率提升。在LiveMCPBench基准测试中,该方法在Recall@5指标上提升19.4%,在nDCG@5指标上提升17.7%,为构建可扩展的LLM多智能体系统开辟了新路径。
2025-12-17 00:29:34
521
原创 ROLLMux:让大模型强化学习训练成本降低近一半的调度框架
在大模型强化学习(RL)后训练中,如何高效利用昂贵的GPU资源一直是工业界的痛点。传统的rollout-training分离架构虽然能匹配不同阶段的硬件需求,但严格的同步要求却让一半以上的GPU处于闲置状态。来自香港科技大学和阿里巴巴的研究团队提出了ROLLMux,一个通过phase级别多路复用技术,将RL训练成本效率提升1.84倍的集群调度框架。该系统已在328个H20 GPU和328个H800 GPU组成的生产环境中验证,实现了100% SLO达成率的同时大幅降低了资源成本。
2025-12-16 00:46:39
635
原创 MOA:多目标对齐框架——打造更强大的角色扮演智能体
角色扮演智能体(RPAs)需要同时掌握多种相互冲突的技能——遵循多轮指令、展示领域知识和保持一致的语言风格。这篇论文提出了MOA(Multi-Objective Alignment)框架,通过多目标优化策略,使8B模型在多个维度上匹配甚至超越GPT-4o和Claude等强大基线模型。研究展示了MOA在构建能够同时满足角色知识、人格风格、多样场景和复杂多轮对话需求的RPAs方面的巨大潜力。
2025-12-14 12:46:06
719
原创 推理语言模型训练策略的协同作用:预训练、中间训练与强化学习的交互机制
近年来,强化学习技术在语言模型推理能力提升方面取得了显著进展,但后训练是否真正扩展了模型在预训练期间获得的推理能力仍存在争议。这项研究通过完全可控的实验框架,揭示了预训练、中间训练和强化学习后训练之间的因果贡献关系,为理解推理语言模型训练策略提供了重要基础。
2025-12-11 00:13:56
840
原创 Seer:突破性在线上下文学习系统,实现同步LLM强化学习97%性能提升
随着大语言模型(LLM)强化学习训练需求的快速增长,rollout阶段的性能瓶颈日益凸显。本文深入解读Seer系统——一个革命性的在线上下文学习框架,通过创新性地利用GRPO算法中同组请求的相似性特征,实现了同步RL训练的显著加速。Seer引入了三大核心技术:分割式rollout动态负载均衡、上下文感知调度和自适应分组投机解码,在保持算法保真度的同时,将端到端吞吐量提升74-97%,长尾延迟降低75-93%。
2025-12-09 01:14:12
638
原创 SAPO:软自适应策略优化——大语言模型强化学习训练的稳定新范式
强化学习已成为提升大语言模型推理能力的关键技术,但训练过程中的不稳定性问题长期困扰着研究者。阿里巴巴Qwen团队最新提出的SAPO(Soft Adaptive Policy Optimization)方法通过引入温度控制的软门控机制,巧妙地平衡了训练稳定性与学习效率。本文将深入解析这一突破性方法如何在保持序列连贯性的同时实现token级自适应,为大规模语言模型的RL训练开辟新路径。
2025-12-07 20:02:20
1025
原创 MiniRL:用LLM稳定强化学习的新范式与第一阶近似理论
这篇论文提出了一种新颖的强化学习与大型语言模型结合的理论框架,揭示了何时以及如何通过token级目标函数优化序列级奖励。通过数十万GPU小时的实验验证,论文系统性地分析了训练稳定性关键因素,为MoE模型的RL训练提供了实用指导方案。
2025-12-03 23:51:42
620
原创 DeepSeek-V3.2:开源大语言模型的新里程碑,在推理与智能体任务中突破性能边界
DeepSeek-V3.2作为最新开源大语言模型,通过创新的稀疏注意力机制、可扩展的强化学习框架和大规模智能体任务合成管道,成功缩小了开源与闭源模型之间的性能差距。该模型不仅在多个推理基准测试中与GPT-5表现相当,其高性能变体DeepSeek-V3.2-Speciale更在IMO 2025和IOI 2025等国际顶级竞赛中获得金牌水平表现,标志着开源LLM进入全新发展阶段。
2025-12-02 00:00:47
765
1
原创 SkyRL-Agent:高效多轮LLM智能体训练框架,成本降低50%性能提升39.4%
随着强化学习在语言模型后训练中的应用日益广泛,如何高效训练能够进行多轮交互、长周期推理的工具增强智能体成为了一个重大挑战。本文介绍的SkyRL-Agent框架通过创新的异步管道调度和工具增强训练方法,成功训练出SA-SWE-32B模型,在SWE-Bench Verified基准测试中达到39.4%的Pass@1准确率,相比同等规模模型训练成本降低超过50%,为智能体训练领域带来了突破性进展。
2025-11-27 23:15:08
275
原创 STEP框架:基于成功率感知的轨迹高效策略优化,重塑多轮强化学习新范式
在AI智能体多轮交互领域,传统的轨迹级强化学习方法面临着效率低下和学习信号不准确的双重挑战。本文深入解析了来自小米、中国人民大学和武汉大学联合研究的突破性成果——STEP框架,该框架通过创新的成功率感知采样策略和步级优化机制,在OSWorld和AndroidWorld基准测试中实现了显著性能提升,为大规模语言模型智能体的训练提供了全新的解决方案。
2025-11-25 23:15:04
416
原创 AgentFold:革命性长时程网页智能体突破上下文管理瓶颈
随着人工智能技术的飞速发展,基于大语言模型的网页智能体展现出巨大的信息检索潜力,但它们在长时程任务中的效果一直受到上下文管理根本性权衡的制约。AgentFold的出现,为这一领域带来了革命性的突破,其创新的主动上下文管理模式让智能体在处理复杂任务时展现出前所未有的效率和准确性。
2025-11-23 22:43:32
62
原创 突破OOD环境限制:SPA框架让LLM智能体通过自我博弈内化世界模型
大型语言模型作为智能体在处理分布外(OOD)环境时常常举步维艰。现实世界环境复杂且动态,受特定任务规则和随机性支配,这使得LLM难以将其内部知识与这些环境动态对齐。本文介绍了一种革命性的解决方案——SPA(Self Play Agent)框架,通过自我博弈监督微调让智能体首先内化环境的世界模型,然后利用这些知识进行高效决策。实验证明,该方法在Sokoban环境中将成功率从25.6%提升至59.8%,在FrozenLake环境中从22.1%提升至70.9%,为LLM智能体在OOD环境中的学习提供了全新范式。
2025-11-21 01:49:10
57
原创 突破实时推理瓶颈:AgileThinker如何让AI在动态环境中兼顾速度与智慧
在人工智能快速发展的今天,我们期待AI不仅能像人类一样深度思考,还能在瞬息万变的现实环境中做出及时决策。然而,当前的AI代理往往面临一个两难困境:要么追求深度思考而错过最佳时机,要么为了快速响应而牺牲决策质量。这篇来自斯坦福大学等顶尖机构的研究论文,提出了一个名为AgileThinker的创新解决方案,为AI在实时环境中的推理能力带来了突破性进展。
2025-11-20 02:04:17
284
原创 DeepAgent:开启通用推理智能体新纪元,实现规模化工具集自主调用
近年来,大型语言模型(LLMs)的飞速发展催生了基于LLM的智能体系统,这些系统在网络信息检索、软件工程和个人助理等场景中展现出广泛的应用前景。然而,现有的智能体框架大多依赖于预定义的工作流程,如ReAct和Plan-and-Solve等方法,这些方法在处理复杂现实任务时存在显著局限性。DeepAgent作为一种端到端的深度推理智能体,通过统一的推理过程实现自主思考、工具发现和行动执行,为解决这些挑战提供了全新方案。
2025-11-18 22:47:10
282
原创 突破智能体训练瓶颈:DreamGym如何通过经验合成实现可扩展的强化学习?
本文将介绍DreamGym,一个革命性的强化学习框架,它通过合成多样化经验来解决智能体训练中的核心挑战。DreamGym首次提出基于推理的经验模型,能够在不依赖昂贵真实环境交互的情况下,生成一致的状态转换和反馈信号,为自主智能体的在线强化学习训练提供了可扩展的解决方案。在WebArena等非RL就绪任务中,DreamGym的性能超越所有基线30%以上;在RL就绪但成本高昂的环境中,它仅使用合成交互就匹配了GRPO和PPO的性能。
2025-11-11 23:33:35
1069
原创 突破智能体训练效率瓶颈:Tree Training如何通过共享前缀重用实现3.9倍加速?
本文将介绍Tree Training这一创新训练范式,它针对智能体LLM场景中的分支行为特征,通过Tree Packing和Gradient Restoration技术,实现共享前缀的高效重用,在多个开源模型上实现了高达3.9倍的训练时间减少,为大规模智能体LLM的SFT和RL训练提供了新的效率优化方案。
2025-11-09 18:06:25
893
原创 AgentRL:多轮多任务强化学习新范式如何突破LLM智能体训练瓶颈?
本文将介绍AgentRL框架——一个专为多轮、多任务智能体强化学习训练设计的革命性框架。通过全异步生成-训练管道、跨策略采样和任务优势归一化等创新技术,AgentRL在五个智能体任务上显著超越GPT-5、Claude-Sonnet-4和DeepSeek-R1等顶尖模型,单一多任务模型性能媲美五个任务专用模型,为构建通用LLM智能体开辟了新路径。
2025-11-07 00:17:55
1047
原创 突破RL微调稳定性瓶颈:FP16精度如何解决训练-推理不匹配问题?
本文将介绍一项关于大语言模型强化学习微调稳定性的重要研究。研究发现,当前广泛采用的BF16精度格式是导致训练-推理不匹配的根本原因,而简单切换到FP16精度就能有效解决这一问题,带来更稳定的优化、更快的收敛和更强的性能表现。
2025-11-06 01:22:52
1016
原创 监督式强化学习如何让小模型学会复杂思考
大型语言模型在多步推理任务中常常面临挑战,特别是对于小规模开源模型而言,传统强化学习方法在难以获得正确解的问题上表现不佳,而监督微调则容易过拟合长演示。这篇论文提出了一种创新框架——监督式强化学习(SRL),通过将问题解决重新表述为一系列逻辑"动作"的生成,实现了对复杂推理任务的有效学习。
2025-11-05 00:07:01
737
原创 多轮智能体强化学习实践指南:构建高效交互式AI系统
随着大语言模型向智能体方向发展,多轮强化学习成为实现真正自主交互的关键技术。本文深入分析了加州大学圣地亚哥分校团队的开创性研究,系统揭示了环境复杂度、策略优化和奖励设计三大支柱如何共同决定多轮智能体RL的性能。通过TextWorld、ALFWorld和SWE-Gym三大基准测试的详实实验,研究者提出了首个多轮智能体RL的实践指南,为构建能够在复杂环境中持续学习的AI系统提供了宝贵经验。
2025-11-04 01:10:30
609
原创 ReSpec:突破RL训练瓶颈的推测解码优化系统
随着大语言模型通过强化学习进行对齐训练的需求激增,生成阶段的计算瓶颈日益凸显。ReSpec系统首次系统性地解决了推测解码在RL训练中面临的三大关键挑战,通过自适应配置调整、动态drafter演化和奖励加权更新机制,在保持训练稳定性的同时实现了高达4.5倍的加速效果,为高效的RL-based LLM适应提供了实用解决方案。
2025-11-02 19:51:31
643
原创 突破语言智能体学习瓶颈:早期经验范式开启自主学习新纪元
语言智能体正迎来一场革命性突破!最新研究提出"早期经验"范式,让智能体无需外部奖励信号就能从自身经验中学习,在八大环境中显著提升性能,为构建真正自主的AI系统铺平道路。
2025-11-01 23:42:54
689
原创 On-Policy Distillation:强化学习与蒸馏的完美融合,LLM训练效率提升30倍
本文介绍了一种创新的LLM后期训练方法——On-Policy Distillation,它巧妙结合了on-policy训练的相关性与蒸馏的密集奖励信号,在数学推理和个性化训练任务中实现了与RL相当的性能,但计算成本仅为RL的十分之一。这一方法为小模型的高效训练开辟了新路径,特别适合需要本地部署和持续更新的应用场景。
2025-10-31 00:32:44
781
原创 RecIS:Sparse to Dense,统一推荐模型训练框架的革命性突破
RecIS:Sparse to Dense,统一推荐模型训练框架的革命性突破
2025-10-29 23:23:51
801
原创 AsyPPO_ 轻量级mini-critics如何提升大语言模型推理能力
大型语言模型强化学习训练面临计算瓶颈,传统对称actor-critic架构导致critic模型参数量巨大,训练成本高昂。本文介绍的Asymmetric Proximal Policy Optimization (AsyPPO)算法通过创新的非对称架构设计,使用轻量级mini-critics组合实现高效价值估计,在保持性能的同时显著降低计算开销。实验表明,该方法在多个数学推理基准上平均提升超过3%准确率,训练内存占用减少20%,每步训练时间缩短约20秒。
2025-10-29 00:30:45
986
原创 注意力机制照亮LLM推理之路:揭示预规划-锚定节奏的精细优化策略
本文揭示了大型语言模型内部推理节奏的神秘面纱,通过分析注意力机制发现了"预规划-锚定"模式,为提升模型推理能力提供了全新视角。研究团队创新性地提出两种量化指标,并基于此设计了三种精细化的强化学习策略,在多个推理任务上实现了显著性能提升。
2025-10-28 00:37:09
1047
原创 ROLLFlash – 利用异步加速RLVR与智能体训练
大语言模型强化学习后训练迎来重大突破!阿里巴巴团队推出的RollFlash系统通过异步执行架构,实现了RLVR任务2.24倍和智能体任务2.72倍的训练加速,同时保持模型性能不降级。这一创新为大规模强化学习训练提供了全新的解决方案。
2025-10-26 20:38:36
322
原创 RollPacker:long-short rounds缓解同步RL训练生成长尾
大语言模型强化学习训练面临长尾响应导致的GPU利用率低下问题,RollPacker系统通过创新的tail batching策略,在不牺牲训练精度的前提下实现了2.03×-2.56×的端到端训练加速,为同步RL训练提供了高效解决方案。
2025-10-25 01:04:26
882
原创 RLBoost:利用可抢占资源实现高效强化学习训练
强化学习已成为解锁大型语言模型高级推理能力的关键技术。然而,RL工作流程中的rollout和训练阶段具有根本不同的资源需求,现有框架难以有效解决这一资源紧张问题。RLBoost通过创新的混合架构,利用可抢占GPU资源,实现了1.51x-1.97x的训练吞吐量提升和28%-49%的成本效率改善,为大规模RL训练提供了新的解决方案。
2025-10-24 01:18:52
716
原创 The Art of Scaling Reinforcement Learning Compute for LLMs
本文将介绍ScaleRL框架,一个用于大规模LLM强化学习训练的综合计算扩展方案。该研究提出了sigmoidal计算-性能关系模型,揭示了不同RL方法存在不同性能上限的本质规律,并成功验证了从50k GPU小时准确预测100k GPU小时性能的能力,为LLM强化学习训练带来了可预测性和可扩展性,打破了传统方法在计算资源扩展上的瓶颈。
2025-10-22 22:50:48
808
原创 14B模型赶超671B!rStar2-Agent如何通过智能体强化学习实现高效数学推理?
本文将聚焦微软研究院最新提出的rStar2-Agent模型——一款仅140亿参数却能在数学推理任务上超越671B参数DeepSeek-R1的智能体模型。文章将拆解其核心创新:GRPO-RoC算法解决代码环境噪声问题、高吞吐量RL基础设施支撑大规模训练、轻量化训练流程降低计算成本,同时解析其在AIME等基准测试中的优异表现,为高效推理模型研发提供新思路。
2025-09-12 00:00:52
1143
原创 小型语言模型:智能体AI的未来?
本文解读NVIDIA研究团队论文,颠覆“越大越好”的语言模型认知,论证小型语言模型(SLMs)在智能体AI(Agentic AI)中的性能、经济性与适配性优势,结合案例与迁移算法,为Agentic系统低成本部署提供思路,回应行业对LLM依赖的惯性挑战。
2025-09-09 22:42:50
1011
原创 Agentic RL Survey: 从被动生成到自主决策
本文将系统解读《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》这篇综述。该综述首次将智能体强化学习(Agentic RL)与传统LLM-RL范式正式区分,通过MDP/POMDP理论框架梳理其核心特征,并从“智能体能力”与“任务场景”双维度构建分类体系,同时整合开源环境、框架与基准,为LLM基自主智能体的研究提供清晰路线图。
2025-09-08 23:24:38
1275
原创 VERLTOOL:打通LLM工具强化学习的“任督二脉”,实现多模态多任务统一训练
本文将聚焦VERLTOOL框架——一款专为智能体工具强化学习(ARLT)设计的开源系统。它解决了现有工具强化学习代码库碎片化、同步执行效率低、跨领域扩展性差的痛点,通过上游对齐VERL、统一工具管理、异步轨迹执行等核心设计,在数学推理、知识问答等6大任务中表现比肩专用系统,为LLM工具强化学习研究提供了高效、可扩展的基础设施。
2025-09-05 00:33:32
943
原创 14.6倍效率提升!AWorld框架如何破解智能体训练的数据生成瓶颈?
本文将深入解析开源框架AWorld——一款专为智能体(Agentic AI)“从实践中学习”设计的基础设施。它通过分布式架构突破经验生成效率瓶颈,使基于Qwen3-32B的智能体在GAIA基准测试中pass@1准确率达32.23%,超越GPT-4o(27.91%),为复杂任务下智能体的规模化训练提供了可落地的完整方案。
2025-09-04 00:04:12
840
原创 提升文本到图像强化学习稳定性:Pref - GRPO算法如何革新图像生成?
在文本到图像生成领域,强化学习正重塑着模型与人类偏好的对齐方式。本文聚焦于一种创新的基于成对偏好奖励的GRPO方法(Pref - GRPO),它通过将优化目标从分数最大化转向偏好拟合,在稳定训练、规避奖励破解等方面取得显著进展,为高质量图像生成提供了新的技术路径。
2025-09-03 01:00:57
1103
原创 深度广度协同:自适应探索如何释放RLVR中LLM的推理潜能?
在本文中,我们将深入探讨一种创新性的方法,即通过自适应探索策略来实现深度与广度的协同,从而充分释放大规模语言模型(LLM)在可验证奖励强化学习(RLVR)中的推理能力。这种方法有效解决了传统算法在处理复杂推理任务时的局限性,为提升LLM的推理表现开辟了新途径。
2025-08-26 00:45:48
620
原创 Agent Lightning:让任何AI智能体通过强化学习实现高效训练
本文将深入解析微软研究院提出的Agent Lightning框架,该框架实现了智能体执行与强化学习训练的完全解耦,能无缝集成各类现有智能体,无需大量代码修改即可进行训练。通过创新的层级RL算法和系统架构,为真实世界智能体的训练与部署提供了新可能。
2025-08-23 16:59:41
1048
原创 稳定且高效:GSPO如何革新大型语言模型的强化学习训练?
本文将介绍Group Sequence Policy Optimization (GSPO),一种用于训练大型语言模型的稳定、高效且性能优异的强化学习算法。与之前采用token级重要性比率的算法不同,GSPO基于序列似然定义重要性比率,并执行序列级裁剪、奖励和优化,在Qwen3模型训练中取得了显著效果。
2025-08-15 22:53:27
893
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅