- 博客(209)
- 收藏
- 关注
原创 小米开源 MiMo-V2-Flash 详解
2025 年小米开源 MiMo-V2-Flash,这是一种混合专家模型(Mixture-of-Experts,MoE),总参数规模为 309B,其中 15B 为激活参数,专为快速且强大的推理能力与智能体(agentic)能力而设计
2025-12-23 16:49:06
626
原创 DeepSeek MLA 核心揭秘:如何实现 MHA 到 MQA 的无缝切换
图 (a) MHA Mode:展示了逻辑上的计算过程。cKVc_{KV}cKV分裂并通过WUKW^{UK}WUKWUVW^{UV}WUV变成多头的kkk和vvv。这是模型训练时的视角,保证了模型拥有多头的表达能力。图 (b) MQA Mode:展示了物理上的计算过程(推理时)。WUKW^{UK}WUK被吸收到 Query 侧(蓝色箭头)。WUVW^{UV}WUV被吸收到 Output 侧(橙色箭头)。KV Cache:只剩下灰色的cKV。
2025-12-11 15:51:41
633
原创 DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
2025 年 DeepSeek 提出的新模型 DeepSeek-V3.2,DeepSeek-V3.2 在多项推理基准上与 Kimi-k2-thinking 和 GPT-5 达到相近性能。同时,高算力版本 **DeepSeek-V3.2-Speciale** 的性能**超越 GPT-5**,并展现出与 **Gemini-3.0-Pro** 相当的推理能力,在 **2025 年国际数学奥林匹克(IMO)** 与 **国际信息学奥林匹克(IOI)** 中均达到了金牌水平。
2025-12-09 19:50:25
1246
1
原创 DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention
DeepSeek-V3.2-Exp 是一个升级版的长文本大模型,它利用一种“只看重点、不看全文”的稀疏注意力方法,大幅减少推理成本,在处理非常长的文本(十几万字)时速度更快、花费更低,同时几乎不损失原有能力。
2025-12-05 19:18:47
668
原创 Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models
2025 年 NVIDIA 提出的 Nemotron-Flash,在当前小模型中大幅提升了精度–效率前沿。例如,相比 Qwen3-1.7B/0.6B,Nemotron-Flash 分别实现了超过 5.5% 的平均精度提升、1.3×/1.9× 的更低时延,以及 18.7×/45.6× 的更高吞吐量。
2025-12-04 19:39:40
733
原创 UNTANGLING COMPONENT IMBALANCE IN HYBRID LINEAR ATTENTION CONVERSION METHODS
2025 年英国华为诺亚提出的 full attention 和 linear attention hybrid 模型的分析,聚焦于如何在 Transformer block 内将 SWA 与 LA 结合,以逼近完整的 softmax 注意力。本文提出了一个发现是 hybrid 模型中 linear 层容易偷懒,导致没有充分训练,本文提出 Scheduled Sliding-window Dropout(SSD) 来缓解这个问题。
2025-11-20 16:53:35
492
原创 Muon 优化器代码实现详解
Muon 优化器通过引入Newton-Schulz 正交化,为深度学习中的2D 权重矩阵(如线性层和卷积层的权重)提供了一种形状感知的更新方式。它有效地将更新方向投影到了一个更“正交”的空间,有助于稳定训练和提高收敛速度,尤其是在训练大型模型如 LLMs 时展现出优势。关键限制仅支持 2D 矩阵: Muon 仅适用于 2D 参数(如隐藏层权重),偏置(bias)和 Embedding 层参数应使用 AdamW 或其他标准优化器进行优化。计算开销。
2025-11-14 17:58:05
1090
原创 Character.ai 团队研发的 Kaiju 大模型训练方案介绍
原文链接:https://blog.character.ai/technical/inside-kaiju-building-conversational-models-at-scale/
2025-11-12 17:48:02
655
原创 ScaleRL:掌握大语言模型强化学习的规模化艺术
本文提出ScaleRL框架,通过40万+ GPU小时实验研究发现强化学习训练遵循S形计算-性能曲线,并据此设计了高效可预测的RL训练方案。
2025-11-10 23:44:53
943
原创 Anthropic 经济指数(Economic Index)概览
原文链接:https://www.anthropic.com/economic-index#us-usage。
2025-11-10 21:21:39
1066
原创 KIMI LINEAR: AN EXPRESSIVE, EFFICIENT ATTENTION ARCHITECTURE
2025 年 Moonshot AI 团队提出的混合架构模型 Kimi Linear,设计了硬件高效的线性注意力模块 Kimi Delta Attention(KDA),在 Gated DeltaNet(GDN) 的基础上加入了更细粒度的门控机制。预训练了一个 具有 30 亿激活参数、总计 480 亿参数的 Kimi Linear 模型,其结构基于 KDA 与 Multi-Head Latent Attention(MLA) 的逐层混合。实验结果表明,在使用相同训练配方的情况下,Kimi Linear 在所
2025-11-08 18:15:50
574
原创 IGPO 一种用于multi-turn LLM Agent RL训练的方法
IGPO 提出以模型自身 belief 更新作为过程级内在监督的思路,既有一定的理论支撑,也在工程上展示了可行性与性能改进的证据。
2025-10-29 16:50:30
1028
原创 Evaluating Long Context (Reasoning) Ability
随着上下文窗口突破百万级,大模型似乎能“读懂一切”。但事实真是如此吗?本文剖析当前主流长上下文基准(如 MRCR、PSRBench)存在的局限,提出更贴近真实任务的评测方式——LongCodeEdit
2025-10-25 18:14:08
1061
原创 σReparam:STABILIZING TRANSFORMER TRAINING BY PREVENTING ATTENTION ENTROPY COLLAPSE
2023 年苹果公司提出一种简单的权重重新参数化方法 σReparam,能够有效缓解熵坍塌问题,从而显著提升 Transformer 的训练稳定性与鲁棒性。
2025-10-24 18:27:02
651
原创 DeepSeek-OCR: Contexts Optical Compression 详解
2025 年 Deepseek 团队提出的 DeepSeek-OCR 算法,文本 token 的数量在视觉 token 的 10 倍以内(即压缩率 < 10×)时,DeepSeek-OCR 可实现 97% 的解码(OCR)精度;即使在 20× 压缩率下,OCR 准确率仍可保持在约 60%。这为诸如历史长上下文压缩、LLM 记忆遗忘机制等研究方向展现出相当可观的潜力。
2025-10-22 16:17:01
900
原创 Peri-LN: Revisiting Normalization Layer in the Transformer Architecture
2025 年 KAIST 对最新很多工作中使用的新 layernorm 使用方案 Peri-LN 进行了详细的分析,相比于 Post-LN 梯度容易衰减,深层训练不稳定问题,以及 Pre-LN 虽改善梯度流,却导致激活值方差指数爆炸(massive activations),引起数值不稳定问题,Peri-LN 通过在每层子模块的输入与输出两端都施加 LN,从而在方差控制与梯度流之间取得平衡。
2025-10-21 18:04:50
782
原创 ReZero is All You Need: Fast Convergence at Large Depth
特性效果参数增加每层仅 1 个标量理论基础动态等距(Dynamical Isometry)可训练深度可达上万层收敛速度最高提升 15 倍通用性适用于 FCN、ResNet、Transformer 等任意残差架构最新的理论工作把 Fixup / SkipInit / ReZero 等总结为“缩放残差分支以匹配深度增长”的共同原则:用初始化或门控,把优化轨迹约束在条件数友好的区域,待网络“站稳”后再逐步提升表达力。
2025-10-17 15:25:54
982
原创 OpenAI 最新开源模型 gpt-oss 架构与训练解析
2025 年 8 月 OpenAI 发布了两款模型,低成本同时有高性能。这是自 GPT-2 以来首次开放权重的语言模型,本文详细介绍 gpt-oss 的架构和训练。
2025-10-15 15:54:26
1894
原创 Qianfan-VL: Domain-Enhanced Universal Vision-Language Models
2025 年百度云团队提出的 Qianfan-VL 模型,所有 Qianfan-VL 模型均在百度昆仑 P800 芯片上完成训练,并通过创新的并行策略与计算-通信融合技术,在超过 5000 芯片的集群上实现了 **90%+ 的扩展效率**
2025-09-24 12:22:49
908
原创 终端复用工具 tmux 的使用方式与推荐配置
tmux 是开发者必备的终端利器,能够极大提升工作效率。通过安装、学习基础命令,再配合合理配置,你就能在命令行中享受媲美 GUI 的多任务体验。推荐大家先熟悉基本操作,再根据自己的习惯调整配置。本文提供的配置是一份高效通用的模板,适合大多数开发场景。
2025-08-23 15:55:36
580
原创 不止于更深:Facebook AI CaiT 模型全方位深度解析
在Vision Transformer (ViT) 开启了用Transformer架构解决计算机视觉任务的大门之后,一个核心问题随之而来:我们能否像在NLP领域那样,通过简单地堆叠更多的层来构建性能更强的视觉模型?答案并非想当然的“是”。早期的尝试表明,直接加深标准的ViT模型会导致训练不稳定和性能饱和。
2025-08-12 19:20:24
750
原创 Score King:基于 Cursor + GPT5 实现的桌游计分神器(Web + Android)
“Score King (桌游计分王)” 是一个专为多人桌游设计的计分工具,涵盖 Web 端(Flask + HTML/JS)和 Android 原生 App(Kotlin + Jetpack Compose)。该项目方便玩家在浏览器或移动设备上轻松管理分数、设置胜利条件并自动判定胜利者。
2025-08-10 19:15:45
582
原创 Canon Layer 详解:Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Laye
2025 年 Meta 研究员朱泽园 (Allen-Zhu) 的工作,设计可控的合成预训练任务来验证不同模型架构的优劣。基于该合成预训练任务进行实验,提出 Canon 层,作为跨相邻 token 的水平“残差连接”,可灵活插入注意力前(Canon-A)、注意力内(Canon-B)、MLP 前(Canon-C)、MLP 内(Canon-D)。
2025-08-06 20:34:48
1148
原创 AI 编程学习网站分享:vibe-coding-tutorial
如果你对 AI 编程有点兴趣,想找几个好用的工具来提效,可以去逛逛这个教程网站 👉。内容不长、干货多,适合平时写代码时想借助 AI 省点力气的朋友。说不定能找到几个趁手的 AI 编程工具,让你以后写代码更轻松。
2025-08-04 16:58:46
4055
原创 KIMI K2 技术报告: OPEN AGENTIC INTELLIGENCE
2025 年 Kimi 推出了全新开源模型 Kimi K2,1T 总参数量的 MoE 模型,在 agent 和 coding 能力上表现突出。
2025-08-02 17:37:13
1027
原创 国内外大模型的代码能力实测与评估:Claude Sonnet 4、GPT4o、Deepseek R1、Kimi K2 等模型
本文围绕大模型的**编程能力评估**展开,结合两个具有代表性的公开评测榜单(LiveCodeBench 和 SWE-Bench),并以两个自构造的典型测试样例(小球物理模拟 + Triton 算子实现)作为补充,实测多个主流大模型的表现,包括 GPT-4o、Claude Sonnet 4、Gemini 2.5 Pro、Kimi K2、DeepSeek R1、豆包、Qwen3-235B 等。
2025-07-27 17:09:19
2034
原创 Vibe Coding 实践指南: Claude Code、Gemini CLI、Qwen Code、Codex
本文将介绍目前主流的几款 AI 编程 CLI 工具:Claude Code、Gemini CLI、Qwen Code、Codex(OpenAI),包括它们的安装使用方法、项目应用实战(主要以 Claude Code 为例)。
2025-07-27 16:54:58
3145
原创 AI Coding IDE 介绍:Cursor 的入门指南
Cursor 是一款 AI 驱动的代码编辑器,旨在通过先进的 artificial intelligence(人工智能)技术来提升开发者的生产力和编码效率。无论你是 AI 工具的爱好者,还是经验丰富的程序员,Cursor 都能为你的开发流程带来显著的改进。它不仅提供了智能的代码补全功能,还可以通过“问答”模式(Ask Mode)快速回答编码问题,甚至可以通过“代理”模式(Agent Mode)自动完成复杂的编码任务。
2025-07-27 15:53:33
1451
原创 Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
2025 年阿里 Qwen 团队的工作,系统性地探讨了门控机制在标准 softmax 注意力中的作用,揭示其对模型性能、训练稳定性和注意力动态具有显著影响。**研究结果表明在缩放点积注意力(SDPA)后应用 sigmoid 门控是提升效果最显著的方案**
2025-07-25 12:35:33
2013
原创 深入解析大语言模型推理优化
**本文将详细介绍 transformer 模型推理基础、推理成本预估、推理效率优化等内容,包括:** - KV Cache 的工作原理及其重要性 - 推理瓶颈分析与性能优化策略 - 分布式推理部署的最佳实践 - 前沿优化技术如推测采样等
2025-07-12 11:18:17
689
原创 百度文心 4.5 大模型详解:ERNIE 4.5 Technical Report
2025 年百度发布的 ERNIE 4.5 系列模型,技术报告很有深度,开源的诚意应该已经达到 deepseekv3 水平。ERNIE 4.5 包括具有 47B 和 3B 活跃参数的混合专家(Mixture-of-Experts, MoE)模型,其中最大模型的总参数量达到了 424B,同时还包括一个 0.3B 的稠密模型。
2025-07-05 16:59:42
1872
原创 MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention
2025 年 minimax 推出的 MiniMax-M1 模型,全球首个开源权重的大规模混合注意力推理模型。MiniMax-M1 采用混合专家(Mixture-of-Experts, MoE)架构,并结合线性注意力机制,456B 总参数量,激活参数量 45B。还提出了增强 RL 效率的新算法 CISPO,MiniMax-M1 可以在 512 张 H800 GPU 上仅用三周完成完整 RL 训练,总租用成本仅为 534,700 美元。
2025-06-26 16:00:06
1017
原创 Kimi-Researcher 技术详解
2025 年 Kimi 发布的 Kimi-Researcher —— 一款擅长多轮搜索与推理的自主智能体。Kimi-Researcher 构建于 Kimi k 系列模型的内部版本之上,完全通过端到端的智能体强化学习(RL)训练而成。目前已能在 kimi 网页端进行体检。
2025-06-21 15:34:01
2673
原创 Advancing Expert Specialization for Better MoE
2025 年北邮提出的一个基于梯度的多目标优化框架,促进专家专业化和路由多样化,同时保持辅助损失中的负载平衡。引入了两个互补的目标,分别鼓励专家专业化和路由多样化。
2025-06-17 15:07:57
938
原创 面壁智能 MiniCPM4 技术报告:适用于边缘芯片的 0.5B/8B 级高效大模型
2025 年面壁智能 MiniCPM Team 成功开发出**适用于边缘芯片的 0.5B/8B 级高效大模型 MiniCPM4**。在终端设备上处理 128K 长文档时,实现了 7 倍的推理速度提升。
2025-06-11 17:48:28
946
原创 Hardware-Efficient Attention for Fast Decoding
2025 年普林斯顿大学提出的硬件友好 attention 设计,在 MQA/GQA 与 deepseek 提出的 MLA 基础之上继续优化,提出 Grouped-Tied Attention (GTA) 和 Grouped Latent Attention (GLA),实现更高推理效率的同时也能保持较好的模型效果。
2025-06-08 14:57:09
951
原创 Qwen3 技术报告详解
2025 年通义实验室发布的最新模型 Qwen3,首次在 Qwen 系列中使用了 MoE 架构,并且在一个模型中同时支持了推理和非推理模式,同时使用了大量的合成数据训练,达到了开源模型的 SOTA 榜单效果。
2025-05-28 20:30:00
2470
原创 GATED DELTA NETWORKS : IMPROVING MAMBA 2 WITH DELTA RULE
2024 年 Nvidia + MIT 提出的线性Transformer 方法 Gated DeltaNet,融合了自适应内存控制的门控机制(gating)和用于精确内存修改的delta更新规则(delta update rule),在多个基准测试中始终超越了现有的模型,如 Mamba2 和 DeltaNet。
2025-05-28 19:46:30
2252
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅