自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(154)
  • 收藏
  • 关注

原创 3月22日下午!从 OpenClaw ,一起聊聊 Vibe Coding 与下一代 Agent 架构

Vibe Coding & Agent Evolved Meetup:当AI重构编程体验 这场极客聚会将展示AI如何颠覆传统编程模式。四位来自顶尖机构的实战派将分享:用Rust一个周末重写CLI工具、让AI代理处理科研执行层、攻克保险行业Agent落地难题、60分钟构建GitHub数据分析平台等突破性案例。活动面向开发者、创业者、技术管理者和AI爱好者,探讨如何通过"Vibe Coding"理念——专注整体设计而非代码细节,利用AI实现10倍效率提升。3月22日在北京举行,限额1

2026-03-19 09:07:23 210

原创 ICLR 2026 | 大模型的无监督强化学习能走多远?

《无监督RLVR的边界探索:繁荣背后的陷阱与突破》摘要 本文系统研究了无监督强化学习与价值对齐(RLVR)方法的实际效果与理论边界。通过对11个模型、5种内在奖励方法的大规模实验,发现:1)所有基于模型自信度/多数投票的内在奖励方法均呈现"先升后降"的崩溃曲线,其本质是放大模型初始偏好而非创造新知识;2)在小规模测试时训练(TTT)场景中,即使初始全错也能稳定进化;3)提出"模型坍塌步数"作为预判指标,可评估基模的RL适配性;4)探索基于生成-验证不对称的外部奖励路径

2026-03-16 06:59:48 351

原创 聊聊 CaveAgent!面向对象的 Agent Infra 新范式:有状态运行时管理的设计与工程实践

【摘要】3月17日青稞Talk将探讨LLM Agent框架的范式革新。当前Text-in-Text-out模式限制了Agent处理复杂对象的能力,新加坡国立大学万政霖博士将分享CaveAgent提出的Object-in-Object-out新范式。该方案通过Python运行时实现原生对象双向流通,支持数据分析、多Agent协作等场景,并为强化学习提供结构性基础。直播涵盖双流架构设计、安全机制及工程实践,将在青稞AI视频号/B站同步进行。(149字)

2026-03-16 06:52:31 190

原创 当记忆从“历史”变成“经验”!UIUC、清华、微软研究院最新提出 PlugMem,让 Agent 告别流水账式记忆

摘要: UIUC、清华与微软研究院联合提出的PlugMem突破了传统Agent记忆系统的局限,将原始交互日志转化为结构化知识,而非简单压缩。该框架包含结构化、检索与推理三大模块,将记忆分为事实性知识和程序性知识,显著提升决策效率并降低上下文成本。实验表明,PlugMem在长期对话、多跳推理和网页交互等场景中均能提高信息密度和任务成功率,标志着Agent记忆从低效"流水账"迈向高密度知识化时代。其核心创新在于重新定义记忆价值——不是存储更多历史,而是提炼可复用的决策资产。

2026-03-15 14:15:13 323

原创 从Text-in-Text-out到Object-in-Object-out:LLM Agent工具调用的范式转变

摘要: CaveAgent提出了一种创新的有状态Agent运行时框架,通过"Code as Action, State as Memory"范式突破传统Text-in-Text-out限制。该框架采用双流架构(语义流+运行时流),支持(Text & Object)-in-(Text & Object)-out交互,实现LLM直接操作Python原生对象。核心创新包括变量注入/检索机制、运行时中介的多Agent协作、扩展的Agent Skills标准以及基于AST的安全防护

2026-03-13 13:37:00 346

原创 MIT&Harvard 最新提出 PAGE-4D:让 3D 模型“看懂“动态世界的统一框架

PAGE-4D:动态场景中视觉几何任务的解耦框架 MIT和哈佛团队提出PAGE-4D模型,解决视觉几何基础变换器(VGGT)在动态场景中的固有矛盾:相机姿态估计需抑制动态区域,而几何重建需建模动态信息。该模型通过动态感知聚合器预测动态掩码,实现静态/动态信息解耦——姿态估计时抑制运动线索,几何重建时增强动态表示。实验显示,相比VGGT,PAGE-4D在深度估计准确率提升20-40%,姿态误差降低13-21%,点云误差下降60%以上,同时保持43.2FPS的实时性能。该框架无需后处理,可端到端完成多任务4D感

2026-03-11 22:45:18 451 1

原创 ICLR 2026!腾讯混元联合 KCL 提出 WildToolBench,评估 Agent 对用户狂野行为的适应能力

研究团队提出WildToolBench基准测试,聚焦真实用户与AI交互中的"野生"行为模式。该测试包含256个场景,覆盖三大核心挑战:组合任务工具编排、多轮对话隐含意图推断和指令实时切换应对。评估58个主流模型发现,最高会话准确率不足15%,揭示现有AI工具调用能力与真实需求间的巨大差距。研究指出,未来AI发展需强化对用户复杂意图的理解,而非仅优化工具执行能力。数据集和评估框架已开源,为行业提供更贴近实际的测试标准。

2026-03-09 14:05:43 410

原创 ROLL 团队分享:面向多轮交互 Agentic 场景的 Rollback 课程学习机制探索与实践

本文提出了一种基于回滚的课程学习框架(Rollback-based Curriculum Learning),用于提升智能体在长时域、高难度任务中的表现。该方法通过检查点机制将成功轨迹分解为时序课程,从接近终点的检查点开始训练,逐步回溯至初始状态。理论分析和思想实验表明,该方法能显著降低训练成本,缓解稀疏奖励问题。文章还讨论了实践中的关键挑战,如中间状态复位和课程难度调节,并分享了在真实Agentic环境中的优化经验。这一框架为复杂任务的强化学习训练提供了高效解决方案。

2026-03-09 10:28:10 608

原创 周六上午10点!聊聊Dr. Kernel如何突破大模型GPU Kernel生成的多轮RL训练瓶颈?

【摘要】港科大、字节跳动等机构联合推出Dr. Kernel系统,突破大模型通过强化学习生成高效GPU Kernel的长期技术瓶颈。该系统构建了稳定的分布式GPU训练环境,并提出创新RL算法TRLOO,解决了奖励作弊和训练不稳定性问题。最终Dr. Kernel-14B模型在KernelBench测试中生成代码速度提升47.8%,性能超越GPT-5等前沿模型。研究团队将于3月7日通过线上讲座分享技术细节,包括KernelGYM训练平台构建、多轮RL优化等核心突破。(98字)

2026-03-05 17:08:27 368

原创 通往 AGI 的必经之路:Agent 自进化到底是在“进化”什么?

AI AMA首期聚焦"Agent自进化"主题,由魔搭社区等机构联合发起,汇集阿里通义实验室研究员翟云鹏及5位顶会论文作者展开深度探讨。与会专家围绕自进化定义展开多元视角:陈兆润强调在有限监督下自主改进策略并生成环境的能力;张凯提出需突破单一环境限制,建议以编程等复杂场景作为突破口;刘博则认为自进化是智能系统的固有能力,代表高阶认知水平。讨论聚焦三大方向:1)环境自主生成与策略协同进化 2)从单一环境向复杂真实场景过渡 3)自进化作为衡量智能水平的新标准。学界共识指向:自进化需突破传统se

2026-02-19 17:33:40 879

原创 苦涩的教训!ROLL团队分享:Agentic RL 训练中的实践经验

《AgenticRL在终端环境中的实践与挑战》摘要 本文探讨了在终端环境中构建Agentic强化学习(RL)系统的实践经验与核心挑战。相较于传统RLVR(单步bandit问题),AgenticRL涉及多步交互式决策、长时序信用分配和环境状态转移,对算法设计、工程基建和环境管理提出更高要求。文章通过两个研究者的故事引出AgenticRL的典型困境,并系统介绍了解决方案:1)构建ROLL训练框架与ROCK沙箱环境管理器的协同系统,支持灵活/原生两种交互模式;2)通过异步训练管线、环境清理和课程学习策略提升稳定性

2026-02-15 15:36:44 723

原创 比肩 GPT-5 的 Kernel Coding 模型!Dr. Kernel 用多轮 RL 训练大模型 GPU Kernel 生成

来自港科大、字节跳动、港中深和南洋理工的研究者们发现可验证不等于可长期可训练再叠加多轮交互带来的长程信用分配与训练不稳定,使得长期、可扩展的 RL 训练一直缺少系统化方案。

2026-02-14 03:03:36 594

原创 Agent 如何“在经验中成长”?深度探讨自进化的关键问题与技术路径

2025年AI领域迎来重大范式转移,Agent自进化技术从理论走向实践。不同于传统静态模型,自进化Agent通过"执行-反思-改进"闭环实现持续优化,在100次任务交互后成功率提升37%。学界存在两种主流路径:模型权重持续更新与记忆上下文进化。青稞社区将举办首期AI AMA直播,邀请6位青年学者(来自阿里、芝加哥大学等机构)探讨自进化的定义、评估、工业落地等核心议题,2月5日14:00在多平台同步直播。这场对话将揭示AI从"被动学习"到"主动成长"

2026-02-04 11:23:45 755

原创 一起聊聊JustRL,如何只用最基础的 RL 配方也能达到不错的性能?

摘要:清华大学团队采用基础强化学习方法(JustRL),在不使用复杂优化技巧的情况下,仅用1.5B参数模型和一半算力就在9个数学推理基准上取得54.87%和64.32%的新性能基线。研究发现传统优化方法反而会降低性能,表明简单方法充分训练可能更有效。2月3日晚8点,博士生何秉翔将在青稞社区直播分享该成果,内容包括RL训练技巧、JustRL实现及实验对比。直播平台包括视频号和B站。(98字)

2026-02-02 11:03:53 388

原创 周五上午9点!一起聊聊 GDPO,解决 GRPO 在多奖励 RL 训练中的“优势崩溃“问题

摘要:英伟达最新研究提出GDPO算法,解决多奖励强化学习中的"优势崩溃"问题。研究发现传统GRPO方法在多奖励场景下会因归一化导致优势信号分辨率下降,而GDPO通过逐奖励解耦归一化保留细粒度差异。实验证明该方法在工具调用、数学推理等任务

2026-01-27 07:44:52 298

原创 一起聊聊InternVLA-A1:理解、生成、执行一体化的VLA

上海人工智能实验室具身智能中心提出"高质量合成数据+统一学习框架"方案,突破具身智能领域瓶颈。研究团队构建了国际首个纯合成数据集InternData-A1(63万条轨迹),并开发了理解-生成-执行一体化模型InternVLA-A1。该模型在真机与仿真评测中表现优异,尤其在动态场景突出。1月27日20:00,项目负责人曾嘉博士将在青稞Talk第105期分享相关研究成果,包括数据集构建、模型设计思路等。直播将在青稞AI视频号和B站同步进行。

2026-01-23 14:15:58 635

原创 视觉模型引入频谱信息!一起聊聊从语义到像素的统一自编码 UAE

视觉模型长期面临语义理解与像素生成难以统一的问题。南洋理工大学研究团队提出"棱镜假说",认为视觉信号中的语义信息(低频)与细节信息(高频)可沿频率维度自然分离。基于此构建的统一自编码框架(UAE)在保持语义判别能力的同时显著提升生成质量。1月20日晚8点,研究者范洧辰将直播分享该成果,探讨视觉统一表征的新视角。

2026-01-15 09:45:33 274

原创 RLLaVA 开源!多模态大模型 RL 训练框架的设计与实践

当我们将目光投向 多模态大模型(VLM) 时,RL 的研究正展现出巨大的想象空间与学术潜力。

2026-01-13 12:27:29 586

原创 大模型为什么会产生“离群值”?深度解析RoPE与注意力机制

摘要:本文探讨了大语言模型(LLM)中离群值(Outliers)的存在意义及其与Attention机制的关系。研究发现,离群值主要出现在前几个token中,对模型性能至关重要,移除会导致灾难性性能下降。从Attention机制角度分析,这些离群值与RoPE位置编码密切相关,是模型处理长文本依赖的关键机制。离群值帮助模型在RoPE干扰下保持远程召回能力,低频分量维度的大信号导致离群值出现。研究还发现Partial RoPE或NoPE可能优于标准RoPE,并解释了Attention图中的斜条状模式是离群值的副作

2026-01-12 12:39:37 921

原创 重新思考扩散模型蒸馏 work 的方式!周二晚8点,聊聊 Z-Image 背后的 DMD 实践

摘要:两篇突破性论文重新定义了扩散模型蒸馏(DMD)技术。DMDR通过融合强化学习(RL)与蒸馏,使4步生成图像质量超越教师模型,解决了模式缺失和奖励作弊问题。Decoupled DMD则揭示传统DMD的成功源于CFG增强而非分布匹配,提出解耦重噪计划优化生成效果。这些成果标志着扩散模型蒸馏正从模仿转向超越、从黑盒转向解耦。青稞社区将举办线上讲座,由相关研究者分享技术细节及Z-Image-Turbo应用案例。(149字)

2026-01-12 08:10:19 974

原创 实录精选!MiniMax M2.1 的 Agent 后训练技术官方解读

摘要 MiniMax M2.1是基于M2模型优化后的开源MoE模型,参数规模230B,在Agent场景下表现出色。技术分享重点介绍了Agentic数据合成方法,包括:1)利用GitHub PR/Commit构建可验证的SWE任务,通过Docker环境验证Bugfix等功能;2)专家驱动的AppDev数据合成,结合专业经验优化全栈开发任务;3)虚拟长程任务合成。M2.1在多语言SWE任务上表现优异,支持多种脚手架,在Hot Arena等评测中展现优势。

2026-01-11 00:22:30 1372

原创 替代 GRPO!英伟达最新成果GDPO,解决多奖励 RL 训练的优势崩溃

摘要: NVIDIA研究团队针对多奖励强化学习中的"优势崩溃"问题,提出GDPO(Group reward-Decoupled Normalization Policy Optimization)方法。该方法通过解耦归一化处理,先对每个奖励信号单独进行组内归一化,再聚合奖励并做批次归一化,有效保留了不同奖励的相对差异。相比传统GRPO方法,GDPO显著提升了训练信号分辨率,解决了多奖励组合时优势值被"抹平"的问题,使模型能更稳定高效地学习多种偏好。实验表明GDPO在各

2026-01-10 08:11:48 885

原创 1% 投毒竟导致 40% 翻车?AI 事实核查系统有多脆弱!

act2Fiction这篇非常有意思的工作。这篇来自香港浸会大学,香港大学,微软合作的团队最新论文,**被人工智能领域国际会议The 40th Annual AAAI Conference on Artificial Intelligence(AAAI 2026)接收为Oral**,直击SOTA的AI事实核查系统的致命弱点。

2026-01-08 00:19:39 577

原创 周六上午10点!和SAPO一作聊聊大模型 RL 算法演进

摘要:本文系统梳理了大模型强化学习(RL)算法的演进历程,从理论基石TRPO到实用算法PPO、GRPO、GSPO,再到最新融合创新算法SAPO。TRPO奠定了KL散度约束的理论基础,PPO通过裁剪机制实现平衡优化,GRPO创新性地舍弃价值模型,GSPO提升至序列级优化解决稳定性问题。SAPO则通过软门控机制和自适应温度控制,在保持稳定性的同时提升样本效率。1月10日青稞Talk第102期将邀请通义千问算法工程师高畅博士深度解析这一技术演进路径。

2026-01-07 14:40:44 993

原创 周二晚8点!和 MiniMax 通用模型后训练负责人,一起聊聊 M2.1 中的 Agent 后训练经验与认知

【青稞Talk第101期直播预告】MiniMax算法工程师伊泽将于1月6日20:00分享《MiniMax M2.1:Agent后训练经验与认知》。M2.1模型在多语言编程、Web/App开发、办公场景支持等方面表现突出,具有更简洁高效的回复和优秀的Agent泛化能力。直播将涵盖Agentic数据合成、RL框架构建及评测等主题。模型已开源:https://huggingface.co/MiniMaxAI/MiniMax-M2.1

2026-01-04 13:47:38 424

原创 小米大模型 Plus 团队提出BTL-UI:基于直觉-思考-关联的GUI Agent推理

小米大模型Plus团队提出"眨眼-思考-链接"(BTL)框架,模拟人类认知过程改进GUI智能体交互能力。该框架将交互分解为三个阶段:Blink快速定位界面元素,Think进行高级推理决策,Link生成可执行命令。团队还设计了BTL奖励机制,整合过程与结果监督,在ScreenSpot等基准测试中取得显著提升,7B模型定位准确率达89.1%,3B模型在AndroidControl-Low任务中步骤成功率达84.8%。消融实验验证了各模块的有效性,为构建更自然的数字助手提供了新思路。论文和代码

2025-12-24 12:45:29 939

原创 在看完近50篇 VLA+RL 工作之后......

本文对该领域的关键论文进行了分类整理,涵盖离线RL、在线RL、世界模型、推理时RL及对齐技术。

2025-12-23 10:10:38 1133

原创 从 Inference 到 RL Systems,与七位青年科学家一起深度探讨 AI Infra!

青稞Talk第100期特辑:2025 AI嘉年华邀您共话前沿 12月28日,青稞社区将举办青年科学家专场活动,集结20+学术与工业界AI专家,围绕2025年技术进展与2026年趋势展开深度对话。活动特设Infra专题,由新加坡国立大学万信逸博士主持,清华大学章明星、vLLM核心开发者游凯超等嘉宾参与研讨。 亮点环节:开放AMA提问,涵盖RL训练稳定性、具身智能落地等热点议题。扫码入群提交问题,优质提问将获现场解答! (注:摘要严格控制在150字内,聚焦核心信息,省略部分嘉宾名单与图片描述。)

2025-12-22 12:55:36 419

原创 深度对话!2025 “青稞” AI 嘉年华,与 20+ 位青年科学家一起探讨AI 技术瞬间

青稞社区将于12月28日举办"2025青稞AI嘉年华",汇聚20+青年科学家探讨AI前沿趋势。活动聚焦高效模型、智能体协同、具身交互等方向,特设AMA环节解答技术难题。参与方式:添加小助手发送"2025"入群提交问题,优质提问将获现场解答。

2025-12-18 22:57:31 353

原创 NeurIPS 2025!阿里开源 UniEdit:首个大型开放域大模型知识编辑基准

华东师范大学联合阿里巴巴、合肥工业大学提出首个开放域知识编辑基准UniEdit,覆盖25个知识领域、31.1万条样本,被NeurIPS接收。该研究基于Wikidata构建大规模数据集,提出NMCS算法统一评估编辑的可靠性和泛化性。实验发现当前编辑方法虽能记住修改内容,但在多跳推理等复杂场景下泛化性不足,且社会科学领域编辑难度更大。UniEdit不仅推动模型编辑研究,还可应用于事实一致性检测、多跳推理等方向。论文、代码和数据集已开源,为LLM知识更新与可靠性研究奠定基础。

2025-12-18 15:47:06 926

原创 告别 Router Replay:利用 Online IcePop 解决 MoE 模型 RL 训练的不稳定性

摘要:本文提出Online IcePop方法,结合蚂蚁百灵团队的IcePop算法与Qwen团队的MiniRL发现,解决MoE模型在强化学习训练中的稳定性问题。通过截断重要性采样和Mask操作处理专家突变导致的统计偏差,同时采用纯Online策略梯度更新避免Router分布漂移。该方法在保持训练稳定性的同时,无需复杂的Router Replay机制,显著简化了工程实现并提升了效率。(150字)

2025-12-18 15:42:01 737

原创 如何解决RL阶段的Off-Policy问题?聊聊大模型时代的信任域策略优化TRPO

摘要:大型语言模型(LLM)在强化学习阶段面临策略部署与更新不匹配的核心挑战,主要表现为训练-推理精度差异、MoE路由不稳定和异步训练时序偏差。信任域策略优化(TRPO)通过代理目标函数和KL散度约束有效控制策略偏离,确保训练稳定性。青稞社区将于12月20日举办直播,由研究科学家Yingru Li分享《TRPO重生:大模型时代的信任域策略优化》,探讨LLM特有的Off-Policy挑战及解决方案。

2025-12-16 10:16:49 830

原创 为什么视频生成稀疏注意力做不好?中科院自动化所最新提出稀疏注意力纠偏新范式

中科院自动化所提出Rectified SpaAttn方法,通过校正稀疏注意力中的系统性偏差,显著提升生成式视频模型的效率。传统稀疏注意力方法因关键token权重放大和非关键token信息丢失导致质量下降。新方法创新性地利用"隐式全注意力"作为参考,采用隔离池化注意力重分配(IPAR)和收益感知池化校正(GAPR)技术,在保持高稀疏率的同时提升生成质量。实验显示,该方法结合模型缓存可实现4-9倍加速,在HunyuanVideo等模型上优于现有稀疏注意力方案,为长视频生成提供了高效解决方案。

2025-12-13 19:04:26 975

原创 引入线性注意力!一起探索图像视频扩散模型的高效设计与加速

摘要:SANA系列模型通过线性注意力等创新技术,显著提升了视觉生成任务的效率与质量。SANA实现4096×4096超高分辨率图像生成,模型轻量且速度快100倍;SANA 1.5通过训练扩展和剪枝技术,灵活适应不同计算需求;SANA-Sprint将推理压缩至1-4步,实现毫秒级生成;SANA-Video则高效生成长达1分钟的高清视频。这些突破使高性能视觉生成技术更易普及。

2025-12-12 18:11:32 1248

原创 深度!当速度扼杀稳定性:字节揭秘训练-推理不匹配导致的RL崩溃

对更快推理的不懈追求已经造成了危险的\x26quot;训练-推理不匹配\x26quot;,这可能悄然扼杀大语言模型的RL。

2025-12-11 00:31:42 1062

原创 VLA 的强化学习后训练框架π_RL详解

本文介绍了面向流匹配VLA的强化学习后训练框架π_RL的研究工作。针对基于流匹配的视觉语言动作模型(VLA)在强化学习训练中面临的动作概率计算困难和探索不足问题,研究团队提出了两种创新解决方案:Flow Noise通过引入可学习噪声构建联合概率密度近似策略梯度;Flow SDE则采用双层马尔可夫决策过程耦合动作生成与环境交互。该框架有效解决了传统SFT方法存在的数据成本高、过拟合和性能上限问题,为流匹配VLA的强化学习训练提供了新范式。实验表明,π_RL能显著提升模型在复杂任务中的表现,为VLA的实际应用提

2025-12-10 17:25:37 965

原创 探讨一下:从BF16到FP16,如何解决RL训练-推理不匹配问题

SeaAI Lab研究发现,将大语言模型强化学习微调中的BF16精度切换为FP16可显著提升训练稳定性。12月13日上午10点,研究工程师齐朋辉将在青稞Talk第97期直播分享这一突破性成果,解析FP16如何解决RL训练-推理不匹配问题,并展示效果验证。分享涵盖问题根源、解决方案及实践启示,观众可通过视频号或B站观看。

2025-12-10 17:24:19 529

原创 Fast-dLLM v2:高效训练推理的块扩散大语言模型框架

Fast-dLLM v2 旨在通过高效块扩散架构突破大模型推理的速度瓶颈。

2025-12-07 01:39:35 433

原创 周六上午!一起聊聊π_RL,面向流匹配VLA模型的强化学习微调框架

北京大学博士生陈康将于12月6日分享《面向流匹配VLA的强化学习后训练框架》。研究提出Flow-Noise和Flow-SDE两种技术路线,解决了流式模型在强化学习中似然求解难题。Flow-Noise通过可学习噪声计算动作似然,Flow-SDE则将去噪转化为随机微分方程。该框架在LIBERO测试平台达到97%以上性能,在ManiSkill任务中成功率提升50%至90%。直播将在青稞社区视频号/B站同步进行。

2025-12-04 12:32:02 948

原创 深度!从两策略到三策略:行为策略和参考策略不一致下的 TRPO 扩展

本文探讨了大模型强化学习中"训推不一致"问题的核心矛盾——行为策略与参考策略的不匹配。作者梳理了11篇相关研究,涵盖算法优化(如Decoupled PPO、GSPO)、系统对齐(如VeRL框架)和模型改进(如MoE路由一致性)等多个层面。研究发现,在异步训练、硬件差异和MoE路由波动等因素影响下,行为策略与参考策略的偏差会显著影响训练稳定性。文章提出用"三策略TRPO"框架统一理解这些问题,将现有解决方案归纳为三类:算法解耦、分布对齐和路由重放,为优化大模型RL训练提

2025-11-30 12:30:06 948

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除