- 博客(230)
- 收藏
- 关注
原创 KernelBlaster 解读:让 LLM 用 In-Context RL 持续优化 CUDA 内核
作者提出的 KernelBlaster(MAIC-RL 框架)将 CUDA 优化建模为一个 In-Context Reinforcement Learning(ICRL)过程,不改 LLM 参数,只通过可持续更新的知识库(Knowledge Base, KB)在推理时学习,从而实现跨任务复用优化经验。图解:这张图强调 KB 的构造过程:以状态为索引,把可行优化和分数挂在状态节点上,形成面向性能瓶颈的结构化记忆,而不是原始代码片段堆积。图解:横轴是优化尝试次数,纵轴是新优化发现/应用进展。
2026-03-01 18:59:48
651
原创 SkyReels-V4:统一多模态视频-音频生成、修复与编辑的基础模型
SkyReels-V4 的价值不只是画质与音质,更重要是统一性一个模型同时支持生成、修复、编辑一套接口适配多模态输入高分辨率长时长仍保持可用效率这意味着它更接近可落地的视频创作基础设施,而不是单一任务模型。本文参考自 SkyReels-V4(arXiv:2602.21818)
2026-02-27 21:29:40
1034
原创 STAPO:通过“静音”极少数伪噪声 Token,稳定 LLM 强化学习
Spurious token = 在正确回答中出现,但对推理贡献极小,却获得正奖励并被异常放大的 token。低概率低熵正 advantage它们虽稀有,但会对训练产生“巨幅更新”。
2026-02-25 22:37:31
619
原创 Learning Personalized Agents from Human Feedback:用人类反馈训练可持续个性化智能体
PAHF 的核心贡献不是“更强模型”,而是把人类反馈嵌入到持续学习闭环。它用Pre-action解决冷启动,用处理漂移,并通过显式记忆把信息沉淀下来。对于现实世界中“偏好经常变化、没有历史数据”的智能体,这是一个非常实用的方向。本文参考自。
2026-02-25 22:30:45
634
原创 MedXIAOHE:面向医疗多模态推理的全栈配方
这篇报告提出了MedXIAOHE—— 一个以医疗场景为核心的视觉-语言基础模型,核心目标是:在真实临床任务中,既能看图、读文、做推理,又能降低幻觉、可追溯证据,并且通过系统化训练与评测框架获得稳定性能。
2026-02-24 22:32:56
732
原创 GLM-5:从 Vibe Coding 走向 Agentic Engineering 的全栈路线图
DSA 稀疏注意力:长上下文成本大幅降低。异步 Agentic RL 基建:训练吞吐稳定性全面提升。TITO + 双侧裁剪 IS:解决异步 RL off-policy 稳定问题。:多阶段 RL 不再“能力丢失”。Chinese GPU 全栈适配:从 kernel 到 inference 完整打通。
2026-02-24 22:07:43
1541
原创 OPUS:在每一次预训练迭代中,做更聪明的数据选择
这篇论文提出 OPUS,把“数据选择”从静态过滤升级为与优化器更新几何对齐的动态选择,在同等算力下显著提升 LLM 预训练效率,并把数据消耗压到更低。图解:横轴是不同基准任务,纵轴是准确率/性能提升。图中对比显示 OPUS 在多个基准上整体优于随机选择,并在 GPT-XL 上带来显著算力节省。传统方法用 raw gradient 来衡量样本效用,但现代优化器会对梯度进行预条件化(preconditioning),真实更新方向与 raw gradient 并不一致。uztPt∇θLz;
2026-02-13 16:13:03
580
原创 Gaia2:在异步、动态环境里评测 LLM Agent 的新标杆
从社区角度看,Gaia2 与 ARE 提供了一个可扩展、可复现的基础设施,非常适合作为下一代 Agent 研究与 RLVR 训练的“标准场地”。图解:不同 App 的调用分布反映出任务的跨域特性,性能差距并非来自某个 App 偏好,而是整体推理与执行能力。图解:左侧展示主 Agent 与子 Agent 的任务分解沟通,右侧显示协作可以降低工具调用错误率。图解:Gaia2 将能力划分为核心能力与环境增强能力,强调真实场景中的噪声与协作。(写入状态的动作),读操作不计入约束,从而兼顾探索性与可验证性。
2026-02-13 15:53:57
734
原创 Kimi Code CLI + K2.5 入门指南
Kimi K2.5 不仅仅是一个对话模型,它是专为开发者场景优化的“视觉型代理”:原生多模态: 能够直接理解截图、UI 设计稿并生成代码。Agent 集群: 支持并行处理任务,最多可自动生成 100 个子代理协同工作。代码能力 SOTA: 在代码生成、重构和逻辑推理方面性能直追 Claude、GPT 等顶尖模型。超长工具链: 支持超过 300 步的工具调用,适合处理复杂的自动化任务。在主流 Agent、coding、多模态等榜单上取得和御三家接近的效果。
2026-02-06 19:59:52
2333
原创 ERNIE 5.0:统一自回归多模态与弹性训练
ERNIE 5.0技术报告提出了一种统一训练文本、图像、视频、音频的自回归基础模型。核心创新包括:1)采用统一Next-Group-of-Tokens预测目标,实现多模态理解与生成的统一范式;2)设计模态无关的超稀疏MoE路由机制,专家自发形成模态专化;3)提出弹性训练方法,一次训练支持多种规模部署。配套可扩展的RL训练基础设施,在保持单模态能力的同时,显著提升多模态融合性能。实验表明,该模型在知识推理、视觉理解、语音处理等任务上表现均衡且强劲,为多模态大模型提供了统一架构的新思路。
2026-02-05 23:04:03
794
原创 Kimi K2.5:面向通用 Agent 的多模态协同与并行编排
rPARLxyλ1⋅rparallelλ2⋅rfinishrperfxyrPARLxyλ1⋅rparallelλ2⋅rfinishrperfxyrparallelrparallel:防止只用单 Agentrfinishrfinish:避免无意义的“空并行”rperfrperf:最终任务质量。
2026-02-04 00:10:24
723
原创 Towards Automated Kernel Generation in the Era of LLMs:LLM 时代的自动化 Kernel 生成全景图
θ这让 LLM 能“压缩”专家知识,适合吸收硬件规范、优化策略等难以形式化的经验。与此同时,Kernel 编程本质上是性能导向的程序合成,它关注的不只是“能跑”,而是“跑得快、跑得稳、跑得适配”。这使得 Kernel 生成更像编译器优化问题,而非普通的软件工程代码生成。这篇文章的价值不在提出新方法,而在于提供了一个系统化视角。
2026-02-03 23:52:26
707
原创 HC-SMoE: MoE Expert 合并压缩方案解读
这篇论文要解决的是的问题,提出了一个的专家合并框架 HC-SMoE,用来决定合并,再用加权方式融合专家,最终在 Qwen、Mixtral 等大模型上实现。
2026-01-21 13:34:33
850
原创 MC-SMoE: MoE 模型压缩方案
用路由统计找冗余,而不是只靠权重。先合并再压缩,避免直接压缩造成性能崩坏。合并后低秩性增强是关键突破点。如果你在做 MoE 相关落地(比如推理部署、移动端推理、边缘设备),MC-SMoE 的思路值得直接借鉴。本文参考自。
2026-01-21 13:32:21
604
原创 Qwen 团队提出 ArenaRL:面向开放式 Agent RL 任务
痛点切得准:抓住开放式 RL 的核心问题“判别塌缩”奖励建模升级:从点式打分转向相对排序,鲁棒性显著提升效率友好:线性比较复杂度却接近全对比精度完整闭环:不仅提出算法,还搭建基准和训练流程。
2026-01-14 23:29:52
993
原创 DeepSeek Engram:给大模型新增一条“记忆稀疏”轴
Engram 提供了一个非常清晰的新轴:条件记忆。它不像 MoE 依赖动态路由,而是用确定性哈希查表处理静态模式,让模型把计算预算留给真正需要推理的部分。实验上,它在多域全面获益,机制上解释清晰,系统上可扩展性强。对于下一代稀疏模型设计,Engram 基本已经给出了一条可落地的路线。原文见。
2026-01-14 19:02:38
820
原创 FlashInfer-Bench:把 AI 生成的 GPU Kernel 放进真实 LLM 系统的“闭环引擎”
这篇论文要解决一个现实痛点:LLM 能写 GPU kernel,但很难稳定、可评测、可部署。作者提出 FlashInfer-Bench (FIB) ,把 生成 → 评测 → 部署 变成一套闭环流程,并用真实线上 trace 来验证 AI 生成 kernel 的正确性和收益。现代 LLM 推理系统(SGLang、vLLM 等)本质是 CPU 调度 + 大量 GPU kernel 调用 。真正决定延迟和吞吐的是 kernel 本身。关键问题:现有手段:问题是:LLM 生成的 kernel 没有统一规格、无法稳定
2026-01-13 22:15:29
882
原创 REAP the Experts:去掉 MoE 一半专家还能保持性能不变
Sparsely-activated Mixture-of-Experts(SMoE)在 LLM 里很香:预训练省算力、推理低延迟,但代价是和。于是大家开始做专家压缩。过去的结论常常是:在多选题(MC)上,比好。但这篇论文指出:一旦任务变成,结论会反过来,,并且给出理论原因与新的剪枝准则 REAP。
2026-01-12 22:12:31
967
原创 GDPO:多奖励 RL 中更稳定、更精细的优势归一化方案
GRPO 在多奖励下存在固有缺陷:信号塌缩 + 训练不稳定GDPO 的改动非常简单,但收益巨大优势信号更细粒度多奖励扩展更稳定多任务表现更一致权重调优并不是万能钥匙,当奖励难度差异大时,条件化奖励更靠谱GDPO 已经在 tool-calling、math reasoning、coding reasoning 三个任务上验证总体来看,这篇 GDPO 的贡献不在于复杂技巧,而是把“多奖励归一化”这个默认细节补上了正确答案。对于多目标 RL 来说,这个修正的意义非常实际:更稳、更准、更可控。
2026-01-11 12:42:28
902
原创 DeepSeek 提出新架构 mHC 详解
从理论上保证稳定性:双随机矩阵 = “恒等映射的可控扩展”从工程上保证可落地实证上稳扎稳打:loss 更稳、梯度更稳、下游表现更好如果说 HC 是 “大胆扩宽残差流”,那么 mHC 就是 “给扩宽后的流做物理约束”,让它既自由又不失控。
2026-01-10 20:42:55
1027
原创 重新审视 Transformer 中的 Head Dimension
目前绝大部分 LLM 模型中的 attention head dim 设置为 128 或者 192,这里希望探究一下这个共识是如何发展而来的。同时也想看看如果加大 attention head dim 会有什么潜在收益和现实约束。
2026-01-09 19:01:07
958
原创 小米开源 MiMo-V2-Flash 详解
2025 年小米开源 MiMo-V2-Flash,这是一种混合专家模型(Mixture-of-Experts,MoE),总参数规模为 309B,其中 15B 为激活参数,专为快速且强大的推理能力与智能体(agentic)能力而设计
2025-12-23 16:49:06
981
原创 DeepSeek MLA 核心揭秘:如何实现 MHA 到 MQA 的无缝切换
图 (a) MHA Mode:展示了逻辑上的计算过程。cKVc_{KV}cKV分裂并通过WUKW^{UK}WUKWUVW^{UV}WUV变成多头的kkk和vvv。这是模型训练时的视角,保证了模型拥有多头的表达能力。图 (b) MQA Mode:展示了物理上的计算过程(推理时)。WUKW^{UK}WUK被吸收到 Query 侧(蓝色箭头)。WUVW^{UV}WUV被吸收到 Output 侧(橙色箭头)。KV Cache:只剩下灰色的cKV。
2025-12-11 15:51:41
752
原创 DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
2025 年 DeepSeek 提出的新模型 DeepSeek-V3.2,DeepSeek-V3.2 在多项推理基准上与 Kimi-k2-thinking 和 GPT-5 达到相近性能。同时,高算力版本 **DeepSeek-V3.2-Speciale** 的性能**超越 GPT-5**,并展现出与 **Gemini-3.0-Pro** 相当的推理能力,在 **2025 年国际数学奥林匹克(IMO)** 与 **国际信息学奥林匹克(IOI)** 中均达到了金牌水平。
2025-12-09 19:50:25
1526
1
原创 DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention
DeepSeek-V3.2-Exp 是一个升级版的长文本大模型,它利用一种“只看重点、不看全文”的稀疏注意力方法,大幅减少推理成本,在处理非常长的文本(十几万字)时速度更快、花费更低,同时几乎不损失原有能力。
2025-12-05 19:18:47
785
原创 Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models
2025 年 NVIDIA 提出的 Nemotron-Flash,在当前小模型中大幅提升了精度–效率前沿。例如,相比 Qwen3-1.7B/0.6B,Nemotron-Flash 分别实现了超过 5.5% 的平均精度提升、1.3×/1.9× 的更低时延,以及 18.7×/45.6× 的更高吞吐量。
2025-12-04 19:39:40
800
原创 UNTANGLING COMPONENT IMBALANCE IN HYBRID LINEAR ATTENTION CONVERSION METHODS
2025 年英国华为诺亚提出的 full attention 和 linear attention hybrid 模型的分析,聚焦于如何在 Transformer block 内将 SWA 与 LA 结合,以逼近完整的 softmax 注意力。本文提出了一个发现是 hybrid 模型中 linear 层容易偷懒,导致没有充分训练,本文提出 Scheduled Sliding-window Dropout(SSD) 来缓解这个问题。
2025-11-20 16:53:35
536
原创 Muon 优化器代码实现详解
Muon 优化器通过引入Newton-Schulz 正交化,为深度学习中的2D 权重矩阵(如线性层和卷积层的权重)提供了一种形状感知的更新方式。它有效地将更新方向投影到了一个更“正交”的空间,有助于稳定训练和提高收敛速度,尤其是在训练大型模型如 LLMs 时展现出优势。关键限制仅支持 2D 矩阵: Muon 仅适用于 2D 参数(如隐藏层权重),偏置(bias)和 Embedding 层参数应使用 AdamW 或其他标准优化器进行优化。计算开销。
2025-11-14 17:58:05
1417
1
原创 Character.ai 团队研发的 Kaiju 大模型训练方案介绍
原文链接:https://blog.character.ai/technical/inside-kaiju-building-conversational-models-at-scale/
2025-11-12 17:48:02
730
原创 ScaleRL:掌握大语言模型强化学习的规模化艺术
本文提出ScaleRL框架,通过40万+ GPU小时实验研究发现强化学习训练遵循S形计算-性能曲线,并据此设计了高效可预测的RL训练方案。
2025-11-10 23:44:53
1030
原创 Anthropic 经济指数(Economic Index)概览
原文链接:https://www.anthropic.com/economic-index#us-usage。
2025-11-10 21:21:39
1244
原创 KIMI LINEAR: AN EXPRESSIVE, EFFICIENT ATTENTION ARCHITECTURE
2025 年 Moonshot AI 团队提出的混合架构模型 Kimi Linear,设计了硬件高效的线性注意力模块 Kimi Delta Attention(KDA),在 Gated DeltaNet(GDN) 的基础上加入了更细粒度的门控机制。预训练了一个 具有 30 亿激活参数、总计 480 亿参数的 Kimi Linear 模型,其结构基于 KDA 与 Multi-Head Latent Attention(MLA) 的逐层混合。实验结果表明,在使用相同训练配方的情况下,Kimi Linear 在所
2025-11-08 18:15:50
799
原创 IGPO 一种用于multi-turn LLM Agent RL训练的方法
IGPO 提出以模型自身 belief 更新作为过程级内在监督的思路,既有一定的理论支撑,也在工程上展示了可行性与性能改进的证据。
2025-10-29 16:50:30
1178
原创 Evaluating Long Context (Reasoning) Ability
随着上下文窗口突破百万级,大模型似乎能“读懂一切”。但事实真是如此吗?本文剖析当前主流长上下文基准(如 MRCR、PSRBench)存在的局限,提出更贴近真实任务的评测方式——LongCodeEdit
2025-10-25 18:14:08
1288
原创 σReparam:STABILIZING TRANSFORMER TRAINING BY PREVENTING ATTENTION ENTROPY COLLAPSE
2023 年苹果公司提出一种简单的权重重新参数化方法 σReparam,能够有效缓解熵坍塌问题,从而显著提升 Transformer 的训练稳定性与鲁棒性。
2025-10-24 18:27:02
734
原创 DeepSeek-OCR: Contexts Optical Compression 详解
2025 年 Deepseek 团队提出的 DeepSeek-OCR 算法,文本 token 的数量在视觉 token 的 10 倍以内(即压缩率 < 10×)时,DeepSeek-OCR 可实现 97% 的解码(OCR)精度;即使在 20× 压缩率下,OCR 准确率仍可保持在约 60%。这为诸如历史长上下文压缩、LLM 记忆遗忘机制等研究方向展现出相当可观的潜力。
2025-10-22 16:17:01
995
原创 Peri-LN: Revisiting Normalization Layer in the Transformer Architecture
2025 年 KAIST 对最新很多工作中使用的新 layernorm 使用方案 Peri-LN 进行了详细的分析,相比于 Post-LN 梯度容易衰减,深层训练不稳定问题,以及 Pre-LN 虽改善梯度流,却导致激活值方差指数爆炸(massive activations),引起数值不稳定问题,Peri-LN 通过在每层子模块的输入与输出两端都施加 LN,从而在方差控制与梯度流之间取得平衡。
2025-10-21 18:04:50
848
原创 ReZero is All You Need: Fast Convergence at Large Depth
特性效果参数增加每层仅 1 个标量理论基础动态等距(Dynamical Isometry)可训练深度可达上万层收敛速度最高提升 15 倍通用性适用于 FCN、ResNet、Transformer 等任意残差架构最新的理论工作把 Fixup / SkipInit / ReZero 等总结为“缩放残差分支以匹配深度增长”的共同原则:用初始化或门控,把优化轨迹约束在条件数友好的区域,待网络“站稳”后再逐步提升表达力。
2025-10-17 15:25:54
1032
原创 OpenAI 最新开源模型 gpt-oss 架构与训练解析
2025 年 8 月 OpenAI 发布了两款模型,低成本同时有高性能。这是自 GPT-2 以来首次开放权重的语言模型,本文详细介绍 gpt-oss 的架构和训练。
2025-10-15 15:54:26
2119
原创 Qianfan-VL: Domain-Enhanced Universal Vision-Language Models
2025 年百度云团队提出的 Qianfan-VL 模型,所有 Qianfan-VL 模型均在百度昆仑 P800 芯片上完成训练,并通过创新的并行策略与计算-通信融合技术,在超过 5000 芯片的集群上实现了 **90%+ 的扩展效率**
2025-09-24 12:22:49
979
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅