青稞AI-CSDN博客

原创给 Agent RL 加个“事后复盘”：StepOPSD 让模型精准找到“哪一步走错了”？

StepOPSD：一种面向多轮Agent强化学习的步感知在线偏好蒸馏方法本文提出StepOPSD方法，解决多轮Agent强化学习中因全局轨迹学习导致的错误定位不准问题。传统方法要么依赖稀疏的终端奖励信号，要么将整条轨迹作为普通文本进行蒸馏，无法区分关键决策步骤。StepOPSD在GRPO算法基础上，通过三个核心设计实现精准的步级信用分配：(1)仅抽取模型可控的action步骤；(2)利用同批次成功轨迹作为教师信号；(3)保持RL方向不变，通过乘性权重调整优势函数。实验表明，该方法在ALFWorld的Hea

2026-06-05 21:51:05 294

原创直播预告！从 ARPO，到 AEPO，再到 Agent-World：探索通用智能体训练的可行路径

摘要： 6月6日，中国人民大学博士生董冠霆将在青稞Talk分享通用智能体训练的前沿研究。内容涵盖三部分： ARPO：针对多轮交互型LLM智能体的强化学习方法，通过分支采样优化工具调用，显著提升任务性能（如GAIA数据集Pass@5达61.2%）。 AEPO：改进的熵平衡策略，解决训练稳定性问题，在14个基准上优于主流算法，如HLE任务Pass@5提升至26.0%。 Agent-World：首创智能体与环境协同进化框架，通过合成环境与持续学习提升泛化能力。董冠霆在通用智能体领域成果丰硕，本次分享将探讨从单环

2026-06-03 17:04:42 243

原创直播预告｜从 MiniLLM 开始，为什么 OPD 正在成为推理模型时代的“基础设施”？

摘要：On-Policy Distillation（OPD）已成为大模型后训练领域的热点话题。最新研究发现，学生模型不仅能模仿教师模型，还能通过On-policy数据、与强化学习的融合以及自我优化（Self-Play/Refine/Distillation）持续提升能力，推动大模型从"预测器"向"学习系统"演进。5月30日，青稞社区将举办OPD专题AMA，邀请傅宇千、Tianzhu等6位青年科学家，探讨OPD爆火原因、学生模型超越教师的可能性、RL与蒸馏的边界模糊等前沿问题，揭示技术演化背后的深层逻辑。（1

2026-05-27 21:39:48 202

原创长文本推理一定要改架构？阿里最新提出 RTPurbo：仅需百步训练，无损达到 97%+ 稀疏度与 9 倍加速

RTPurbo：基于原生稀疏性的高效大语言模型推理优化摘要：本文提出RTPurbo，一种通过轻量级微调激活大语言模型原生稀疏特性的高效推理优化方案。研究发现，经过Full Attention训练的模型在Head和Token级别已具备高度稀疏性：仅15%的Attention Head承担长程检索功能，且低频RoPE编码可构建极低维检索空间。RTPurbo通过离线Head校准、动态稀疏注意力机制和两阶段轻量化训练（仅需600步），在保持原始模型能力的同时实现9.36倍Prefill加速和2.01倍Decod

2026-05-26 08:01:52 366

原创清华最新论文！动态 MoE 迁移算法 ZEDA：让 MoE 自己学会“摸鱼“，推理提速 20%

本文提出ZEDA方法，通过注入零专家和自蒸馏训练，将已训练好的MoE模型低成本迁移为动态MoE模型。核心创新包括：1）引入零专家作为跳过计算的选项；2）采用SFT+OPD两阶段自蒸馏适应新结构；3）设计分组辅助损失控制计算节省比例。实验表明，该方法能在跳过约50%专家计算的情况下，保持模型在数学推理、代码生成和指令遵循等任务上的性能仅小幅下降。相比直接修改路由或裁剪专家，ZEDA提供了一种更温和高效的MoE推理加速方案。

2026-05-21 08:37:21 344

原创 ICLR 2026｜Next-ToBE：让“自信而短视“的大模型看得更远、推理更准

华东师范大学与复旦大学团队在ICLR 2026论文《Next-ToBE》中提出了一种创新的大语言模型训练方法。研究发现，当前模型预测分布中已隐含未来token信息，但标准next-token训练目标未能充分利用这一前瞻能力。Next-ToBE通过将单点one-hot标签扩展为覆盖未来窗口的软目标分布，在不改变模型结构的情况下激活了模型的潜在前瞻能力。实验表明，该方法在数学推理、代码生成等任务上显著提升性能，同时训练开销更低（显存最多减少68%）。这项工作揭示了调整训练目标而非增加模型复杂度来提升长程规划能力

2026-05-19 10:28:23 400

原创 ACL 2026 Findings | 浙大提出 GFT：On-Policy SFT 视角下的奖励微调

SFT到底在优化什么？它为什么会削弱后续RL的探索空间？有没有一种后训练方式，既保留SFT的知识注入效率，又能像RL一样利用奖励和比较信号？

2026-05-18 16:37:50 378

原创直播预告！面向几何与运动理解的流式前馈 3D/4D 重建

三维/四维重建技术正迎来从全局优化到前馈式架构的范式变革。5月19日晚8点，南洋理工大学博士生罗奕航将在青稞Talk分享两项突破性成果：STream3R采用因果Transformer实现流式3D重建，通过序列配准解决长序列内存效率问题；4RC提出"一次编码，随时查询"框架，统一建模4D几何与运动。两项工作分别发表于CVPR 2024和ICLR 2024，展示了前馈式架构在时空建模中的优势。直播将解析技术脉络并开放问答。

2026-05-17 21:06:34 370

原创 OPD 到底在优化什么？周六上午10点，一起聊聊其中的三类典型失败以及修复路径

摘要：On-Policy Distillation（OPD）是大模型后训练中的常用方法，但研究发现其sampled-token实现存在稳定性问题，可能导致模型性能下降。5月16日，自动化所博士生傅宇千将在青稞Talk直播中解析OPD的优化目标、常见陷阱及改进方案，提出TeacherTop-K等更稳定的实现路径。分享将探讨OPD的三类典型失败模式及其修复方法，并分析后训练中的关键问题。直播可通过青稞AI视频号观看。

2026-05-15 00:04:52 211

原创和翁家翌（OpenAI）一样的idea！如何让 AI 全自动刷榜——可能的下一个强化学习范式

摘要本文提出AutoTTS框架，通过LLM驱动的自动搜索范式革新传统TTS方法设计。研究发现，过去看似不同的TTS方法实质是同一参数空间的手动调节，而AutoTTS通过三个关键创新实现自动化搜索：(1) 离线replay环境将评估成本降至40美元；(2) β参数化将搜索空间降至1维；(3) 执行轨迹反馈帮助LLM定位错误。实验表明，在Qwen3等模型上，AutoTTS搜索出的策略能以70%算力节省实现同等精度，或在部分场景提升6.3个精度点。该框架展现了将算法设计转化为环境设计的范式转变潜力。

2026-05-12 19:39:49 319

原创 OpenAI 翁家翌：“启发式学习”的强化学习新范式

本文探讨了一种名为Heuristic Learning（HL）的新范式，它通过代码而非神经网络权重来实现持续学习。传统神经网络面临灾难性遗忘问题，而HL利用coding agent维护可迭代的软件系统（Heuristic System），将策略、状态、反馈等显式编码。这种方法具有可解释性、样本效率高、可回归测试等优势，并能通过模块化和工程化手段缓解遗忘问题。文章以Atari游戏和机器人控制任务为例，展示了纯代码策略能达到与深度强化学习相当的水平。作者指出，HL的核心在于降低启发式规则的维护成本，使过去因人力

2026-05-11 19:28:57 404

原创直播预告！下周二晚8点，一起聊聊大模型强化学习的 Scaling Law

摘要：中国科学技术大学与上海人工智能实验室联合研究团队针对大模型强化学习（RL）后训练阶段的资源优化问题展开系统性研究，提出三组约束优化问题，揭示了模型性能与参数量、计算量和数据量之间的幂律关系。研究发现：①RL后训练效果遵循统一幂律公式；②学习效率随模型规模增长趋于饱和；③高质量数据总量比样本独特性更关键。该成果已被ACL 2026收录，相关代码已开源。5月12日青稞Talk将直播分享这项关于大模型RL Scaling Law的研究发现。（149字）

2026-05-10 11:54:34 320

原创干货！什么是 Harness Engineering？运转原理又是怎样的？

摘要：Harness Engineering——LLM的"操作系统" 全球AI团队正聚焦Harness Engineering，因其作为LLM的"操作系统"直接影响模型表现。实验证明，改进Harness可使同一模型排名从30+跃升至第5。Harness包含11个核心组件：工具调用、分层记忆（短期/中期/长期）、安全护栏、验证反馈及子Agent编排等。典型案例显示，Claude Code通过工具管控、记忆压缩和多Agent协作实现复杂任务处理。未来趋势是Harness能

2026-05-09 23:27:52 386

原创 ACL 2026｜告别昂贵的知识图谱：ZoomRAG 让 RAG 像地图一样“缩放“

完全不建知识图谱，只用最便宜的命名实体识别(NER）搭两层不同粒度的关系图，让带重启的随机游走像双指缩放地图一样——先在一张全局粗粒度图上锁定少量相关文档，再在这些文档内部的细粒度局部图上精准定位证据块，从而系统地激活RAG的\x26quot;先粗后细\x26quot;能力。

2026-05-09 22:11:58 499

原创直播预告！和SGLang核心开发者一起聊聊 DeepSeek V4 模型在 SGLang 中的系统级优化与全栈适配

摘要： DeepSeek-V4以1.6万亿参数和百万级上下文窗口的配置引发行业关注，其混合稀疏注意力（CSA+HCA）和FP4专家权重等创新架构带来巨大挑战。SGLang团队在发布当日即完成对DeepSeek-V4的全面支持，通过"ShadowRadix"技术实现异构注意力的高效缓存，并集成FlashInfer TRTLLM-Gen等优化算子，显著提升性能。5月9日，SGLang核心开发者张柏舟将分享DeepSeek-V4在SGLang中的系统级优化实践，包括ShadowRadix设计、

2026-05-06 18:28:44 393

原创直播预告！从 TTRL 到 URLVR：探讨一下大模型的无监督强化学习还能走多远？原创已修改

《无监督强化学习：大模型进化的新范式》摘要：清华大学博士生何秉翔将于4月27日分享大模型无监督强化学习(URLVR)前沿进展。随着人工标注成本激增，无监督RLVR技术正成为突破模型能力天花板的关键路径。讲座将剖析内在/外在奖励机制的本质矛盾，探讨置信度陷阱等核心挑战，并展望超级智能时代模型自进化的可能性。本次分享将呈现从TTRL到URLVR的技术演进图谱，揭示无监督学习如何推动大模型突破现有范式限制。

2026-04-24 07:43:15 43

原创大佬云集！本周日一起聊聊CUA的ChatGPT时刻

摘要：青稞社区将于4月19日举办「ICLR2026 CUA Workshop」线上活动，旨在促进CUA领域的深度交流与传播。活动通过视频号“青稞AI”和B站直播间直播，为无法亲临现场的学者提供参与机会，强调研究应超越论文与代码，通过互动传递价值。详情可关注B站直播间（附链接）。（字数：98）

2026-04-15 21:44:13 27

原创从最基础的模型出发，深度剖析高性能 VLA 的设计空间

摘要：随着视觉-语言-动作模型（VLA）在机器人策略学习中的潜力显现，当前研究却因架构混乱与评估标准不一而陷入“原始汤”困境。为此，南洋理工大学团队提出VLANeXt框架，通过12条设计准则系统梳理VLA核心架构，并在统一基准下验证性能。4月14日，博士生伍晓鸣将直播分享VLANeXt的设计逻辑、真机部署效果及关键准则解析，为VLA研究提供标准化参考。关键点：研究现状：VLA领域缺乏统一架构，性能对比困难；解决方案：VLANeXt提出12条设计准则，建立系统化评估体系；分享内容：涵盖模型设计、部署

2026-04-11 22:46:17 230

原创周六上午10点！一起聊聊 Qwen Pilot 最新成果 FIPO：KL 散度打破大模型复杂推理瓶颈

Qwen Pilot团队研究发现强化学习(RL)在提升大语言模型推理能力中存在三个反直觉现象：RL调整极稀疏，仅影响2%的生成步骤；优化方向比幅度更重要；模型常因过度反思推翻正确结论。团队提出FIPO算法，通过引入Future-KL散度实现token级奖励分配，使Qwen2.5-32B的推理链长度从4,000扩展至10,000+ token，在AIME 2024测试中准确率达58.0%。达特茅斯学院博士生马驰宇将于4月11日直播分享相关研究成果。

2026-04-08 01:07:41 401

原创 Claude Code 源码深度解析：运行机制与 Memory 模块详解

本文对Claude Code CLI工具的源码进行了深度解析，重点分析其核心运行机制和Memory模块设计。文章首先介绍了Claude Code作为Anthropic开发的命令行AI编程助手的技术栈（Bun/TypeScript/Commander.js等）和项目结构。随后详细阐述了其核心运行流程：从用户输入开始，通过QueryEngine管理对话状态，进入queryLoop()核心循环处理消息准备、API调用、工具执行等关键环节。特别关注了Memory系统的实现，包括对话历史管理、上下文压缩（Snip C

2026-04-05 21:28:58 944

原创 ICLR‘26 Oral | 当 LLM Agent 在多轮推理中迷失时：T3 如何让强化学习重新学会主动推理

摘要：随着大语言模型从单轮问答转向持续交互应用，主动推理能力成为

2026-04-04 20:17:45 521

原创 Claude Code 源码逆向工程与系统性分析！Harness Engineering: 基于 Claude Code 的完全指南

近 5 万字的claude code解析，55 张专业图表，基于扫描泄露的 Claude Code 50万行源码的系统性分析，帮助大家理解harness engineering。

2026-04-02 01:01:52 710

原创从任意视角理解和生成世界！和 NTU 博后廖康，一起聊聊统一多模态空间智能大模型 Puffin

多模态空间智能不仅要求机器理解任意相机视角下的现实世界，更要求其具备从任意相机方位创造世界的能力。然而，当前的视觉与生成模型大多仅隐式地感知相机几何，或将理解与生成任务割裂开来。新加坡南洋理工大学、商汤科技、密西根大学和马普所的研究者们联手提出了一种全新的范式——将“相机几何”破译为一种“语言”，并引入“与相机共思”（Thinking with Camera）的理念。本篇工作已被收录为 ICLR 2026 高分论文！！！

2026-04-01 19:29:23 213

原创大模型RL算法梳理：从全量词元到部分词元的路径演化

本文系统梳理了大语言模型强化学习(RL4LLM)的技术演进路径，划分为全量词元优化和部分词元优化两大方向。全量词元优化以GRPO为起点，经DAPO、GSPO到SAPO逐步提升训练稳定性；部分词元优化则聚焦关键词元，如Beyond the 80/20筛选高熵词元，STAPO精准剔除0.01%的虚假词元。研究表明，从"全量覆盖"到"精细筛选"的范式转变，能显著提升训练效率和推理连贯性。未来RL4LLM将朝着更精准的梯度分配方向发展。

2026-03-31 16:44:55 404

原创下周二晚8点！一起聊聊 OpenClaw-RL：让你的龙虾在使用中自适应变强

OpenClaw-RL：对话式训练工业级智能体的强化学习框架 OpenClaw-RL是首个通过自然对话自动训练工业级智能体的强化学习库，实现了从交互中持续进化的能力。该框架采用全异步架构（Slime/Tinker），深度解耦应用、推理与训练模块，确保学习不影响响应速度。创新性地提出混合强化学习方法，结合二元奖励（提供覆盖度）和在线蒸馏（提供精确度），实验显示混合方法评分达0.81，显著优于单一方法。支持终端、GUI、软件工程等四大应用场景，通过集成奖励机制优化长时程任务。系统支持全栈自托管，兼顾隐私性与实用

2026-03-28 20:51:30 479

原创真机RL成本太高？周六上午10点！一起聊聊 RISE：让机器人在世界模型的“想象”中自主进化

OpenDriveLab提出RISE框架，通过组合式世界模型实现机器人策略自主进化。该框架包含动力学模型和价值评估模块，使机器人能在"想象空间"中闭环更新策略，避免真实环境中的高成本试错。RISE突破了物理限制，为具身智能提供高效自我提升新范式。相关研究由CUHK博士生杨佳智领衔，将在3月28日青稞Talk第115期直播分享。

2026-03-26 11:51:18 213

原创直播预告！从 Depth Scaling 到 Width Scaling，聊聊 WideSeek-R1：通过 MARL 探索大模型的广度扩展

清华大学与Infinigence AI团队提出"广度扩展"(Width Scaling)新范式，开发了基于多智能体强化学习的WideSeek-R1模型。该4B参数模型通过分层架构实现高效并发，在广度搜索任务上性能媲美671B参数的DeepSeek-R1，并显著超越同规模基线。中国科学技术大学少年班本科生徐哲轩将于3月24日晚8点在青稞Talk分享这一突破性研究，探讨从深度扩展到广度扩展的范式转变。

2026-03-22 22:13:30 90

原创 3月22日下午！从 OpenClaw ，一起聊聊 Vibe Coding 与下一代 Agent 架构

Vibe Coding & Agent Evolved Meetup：当AI重构编程体验这场极客聚会将展示AI如何颠覆传统编程模式。四位来自顶尖机构的实战派将分享：用Rust一个周末重写CLI工具、让AI代理处理科研执行层、攻克保险行业Agent落地难题、60分钟构建GitHub数据分析平台等突破性案例。活动面向开发者、创业者、技术管理者和AI爱好者，探讨如何通过"Vibe Coding"理念——专注整体设计而非代码细节，利用AI实现10倍效率提升。3月22日在北京举行，限额1

2026-03-19 09:07:23 381

原创 ICLR 2026 | 大模型的无监督强化学习能走多远？

《无监督RLVR的边界探索：繁荣背后的陷阱与突破》摘要本文系统研究了无监督强化学习与价值对齐（RLVR）方法的实际效果与理论边界。通过对11个模型、5种内在奖励方法的大规模实验，发现：1）所有基于模型自信度/多数投票的内在奖励方法均呈现"先升后降"的崩溃曲线，其本质是放大模型初始偏好而非创造新知识；2）在小规模测试时训练（TTT）场景中，即使初始全错也能稳定进化；3）提出"模型坍塌步数"作为预判指标，可评估基模的RL适配性；4）探索基于生成-验证不对称的外部奖励路径

2026-03-16 06:59:48 431

原创聊聊 CaveAgent！面向对象的 Agent Infra 新范式：有状态运行时管理的设计与工程实践

【摘要】3月17日青稞Talk将探讨LLM Agent框架的范式革新。当前Text-in-Text-out模式限制了Agent处理复杂对象的能力，新加坡国立大学万政霖博士将分享CaveAgent提出的Object-in-Object-out新范式。该方案通过Python运行时实现原生对象双向流通，支持数据分析、多Agent协作等场景，并为强化学习提供结构性基础。直播涵盖双流架构设计、安全机制及工程实践，将在青稞AI视频号/B站同步进行。（149字）

2026-03-16 06:52:31 218

原创当记忆从“历史”变成“经验”！UIUC、清华、微软研究院最新提出 PlugMem，让 Agent 告别流水账式记忆

摘要： UIUC、清华与微软研究院联合提出的PlugMem突破了传统Agent记忆系统的局限，将原始交互日志转化为结构化知识，而非简单压缩。该框架包含结构化、检索与推理三大模块，将记忆分为事实性知识和程序性知识，显著提升决策效率并降低上下文成本。实验表明，PlugMem在长期对话、多跳推理和网页交互等场景中均能提高信息密度和任务成功率，标志着Agent记忆从低效"流水账"迈向高密度知识化时代。其核心创新在于重新定义记忆价值——不是存储更多历史，而是提炼可复用的决策资产。

2026-03-15 14:15:13 435

原创从Text-in-Text-out到Object-in-Object-out：LLM Agent工具调用的范式转变

摘要： CaveAgent提出了一种创新的有状态Agent运行时框架，通过"Code as Action, State as Memory"范式突破传统Text-in-Text-out限制。该框架采用双流架构（语义流+运行时流），支持(Text & Object)-in-(Text & Object)-out交互，实现LLM直接操作Python原生对象。核心创新包括变量注入/检索机制、运行时中介的多Agent协作、扩展的Agent Skills标准以及基于AST的安全防护

2026-03-13 13:37:00 378

原创 MIT&Harvard 最新提出 PAGE-4D：让 3D 模型“看懂“动态世界的统一框架

PAGE-4D：动态场景中视觉几何任务的解耦框架 MIT和哈佛团队提出PAGE-4D模型，解决视觉几何基础变换器(VGGT)在动态场景中的固有矛盾：相机姿态估计需抑制动态区域，而几何重建需建模动态信息。该模型通过动态感知聚合器预测动态掩码，实现静态/动态信息解耦——姿态估计时抑制运动线索，几何重建时增强动态表示。实验显示，相比VGGT，PAGE-4D在深度估计准确率提升20-40%，姿态误差降低13-21%，点云误差下降60%以上，同时保持43.2FPS的实时性能。该框架无需后处理，可端到端完成多任务4D感

2026-03-11 22:45:18 524 1

原创 ICLR 2026！腾讯混元联合 KCL 提出 WildToolBench，评估 Agent 对用户狂野行为的适应能力

研究团队提出WildToolBench基准测试，聚焦真实用户与AI交互中的"野生"行为模式。该测试包含256个场景，覆盖三大核心挑战：组合任务工具编排、多轮对话隐含意图推断和指令实时切换应对。评估58个主流模型发现，最高会话准确率不足15%，揭示现有AI工具调用能力与真实需求间的巨大差距。研究指出，未来AI发展需强化对用户复杂意图的理解，而非仅优化工具执行能力。数据集和评估框架已开源，为行业提供更贴近实际的测试标准。

2026-03-09 14:05:43 458

原创 ROLL 团队分享：面向多轮交互 Agentic 场景的 Rollback 课程学习机制探索与实践

本文提出了一种基于回滚的课程学习框架（Rollback-based Curriculum Learning），用于提升智能体在长时域、高难度任务中的表现。该方法通过检查点机制将成功轨迹分解为时序课程，从接近终点的检查点开始训练，逐步回溯至初始状态。理论分析和思想实验表明，该方法能显著降低训练成本，缓解稀疏奖励问题。文章还讨论了实践中的关键挑战，如中间状态复位和课程难度调节，并分享了在真实Agentic环境中的优化经验。这一框架为复杂任务的强化学习训练提供了高效解决方案。

2026-03-09 10:28:10 675

原创周六上午10点！聊聊Dr. Kernel如何突破大模型GPU Kernel生成的多轮RL训练瓶颈？

【摘要】港科大、字节跳动等机构联合推出Dr. Kernel系统，突破大模型通过强化学习生成高效GPU Kernel的长期技术瓶颈。该系统构建了稳定的分布式GPU训练环境，并提出创新RL算法TRLOO，解决了奖励作弊和训练不稳定性问题。最终Dr. Kernel-14B模型在KernelBench测试中生成代码速度提升47.8%，性能超越GPT-5等前沿模型。研究团队将于3月7日通过线上讲座分享技术细节，包括KernelGYM训练平台构建、多轮RL优化等核心突破。（98字）

2026-03-05 17:08:27 407

原创通往 AGI 的必经之路：Agent 自进化到底是在“进化”什么？

AI AMA首期聚焦"Agent自进化"主题，由魔搭社区等机构联合发起，汇集阿里通义实验室研究员翟云鹏及5位顶会论文作者展开深度探讨。与会专家围绕自进化定义展开多元视角：陈兆润强调在有限监督下自主改进策略并生成环境的能力；张凯提出需突破单一环境限制，建议以编程等复杂场景作为突破口；刘博则认为自进化是智能系统的固有能力，代表高阶认知水平。讨论聚焦三大方向：1）环境自主生成与策略协同进化 2）从单一环境向复杂真实场景过渡 3）自进化作为衡量智能水平的新标准。学界共识指向：自进化需突破传统se

2026-02-19 17:33:40 962

原创苦涩的教训！ROLL团队分享：Agentic RL 训练中的实践经验

《AgenticRL在终端环境中的实践与挑战》摘要本文探讨了在终端环境中构建Agentic强化学习（RL）系统的实践经验与核心挑战。相较于传统RLVR（单步bandit问题），AgenticRL涉及多步交互式决策、长时序信用分配和环境状态转移，对算法设计、工程基建和环境管理提出更高要求。文章通过两个研究者的故事引出AgenticRL的典型困境，并系统介绍了解决方案：1）构建ROLL训练框架与ROCK沙箱环境管理器的协同系统，支持灵活/原生两种交互模式；2）通过异步训练管线、环境清理和课程学习策略提升稳定性

2026-02-15 15:36:44 795

原创比肩 GPT-5 的 Kernel Coding 模型！Dr. Kernel 用多轮 RL 训练大模型 GPU Kernel 生成

来自港科大、字节跳动、港中深和南洋理工的研究者们发现可验证不等于可长期可训练再叠加多轮交互带来的长程信用分配与训练不稳定，使得长期、可扩展的 RL 训练一直缺少系统化方案。

2026-02-14 03:03:36 637

原创 Agent 如何“在经验中成长”？深度探讨自进化的关键问题与技术路径

2025年AI领域迎来重大范式转移，Agent自进化技术从理论走向实践。不同于传统静态模型，自进化Agent通过"执行-反思-改进"闭环实现持续优化，在100次任务交互后成功率提升37%。学界存在两种主流路径：模型权重持续更新与记忆上下文进化。青稞社区将举办首期AI AMA直播，邀请6位青年学者（来自阿里、芝加哥大学等机构）探讨自进化的定义、评估、工业落地等核心议题，2月5日14:00在多平台同步直播。这场对话将揭示AI从"被动学习"到"主动成长"

2026-02-04 11:23:45 821

空空如也

空空如也