自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(209)
  • 收藏
  • 关注

原创 小米开源 MiMo-V2-Flash 详解

2025 年小米开源 MiMo-V2-Flash,这是一种混合专家模型(Mixture-of-Experts,MoE),总参数规模为 309B,其中 15B 为激活参数,专为快速且强大的推理能力与智能体(agentic)能力而设计

2025-12-23 16:49:06 626

原创 DeepSeek MLA 核心揭秘:如何实现 MHA 到 MQA 的无缝切换

图 (a) MHA Mode:展示了逻辑上的计算过程。cKVc_{KV}cKV​分裂并通过WUKW^{UK}WUKWUVW^{UV}WUV变成多头的kkk和vvv。这是模型训练时的视角,保证了模型拥有多头的表达能力。图 (b) MQA Mode:展示了物理上的计算过程(推理时)。WUKW^{UK}WUK被吸收到 Query 侧(蓝色箭头)。WUVW^{UV}WUV被吸收到 Output 侧(橙色箭头)。KV Cache:只剩下灰色的cKV。

2025-12-11 15:51:41 633

原创 DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

2025 年 DeepSeek 提出的新模型 DeepSeek-V3.2,DeepSeek-V3.2 在多项推理基准上与 Kimi-k2-thinking 和 GPT-5 达到相近性能。同时,高算力版本 **DeepSeek-V3.2-Speciale** 的性能**超越 GPT-5**,并展现出与 **Gemini-3.0-Pro** 相当的推理能力,在 **2025 年国际数学奥林匹克(IMO)** 与 **国际信息学奥林匹克(IOI)** 中均达到了金牌水平。

2025-12-09 19:50:25 1246 1

原创 DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention

DeepSeek-V3.2-Exp 是一个升级版的长文本大模型,它利用一种“只看重点、不看全文”的稀疏注意力方法,大幅减少推理成本,在处理非常长的文本(十几万字)时速度更快、花费更低,同时几乎不损失原有能力。

2025-12-05 19:18:47 668

原创 Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

2025 年 NVIDIA 提出的 Nemotron-Flash,在当前小模型中大幅提升了精度–效率前沿。例如,相比 Qwen3-1.7B/0.6B,Nemotron-Flash 分别实现了超过 5.5% 的平均精度提升、1.3×/1.9× 的更低时延,以及 18.7×/45.6× 的更高吞吐量。

2025-12-04 19:39:40 733

原创 UNTANGLING COMPONENT IMBALANCE IN HYBRID LINEAR ATTENTION CONVERSION METHODS

2025 年英国华为诺亚提出的 full attention 和 linear attention hybrid 模型的分析,聚焦于如何在 Transformer block 内将 SWA 与 LA 结合,以逼近完整的 softmax 注意力。本文提出了一个发现是 hybrid 模型中 linear 层容易偷懒,导致没有充分训练,本文提出 Scheduled Sliding-window Dropout(SSD) 来缓解这个问题。

2025-11-20 16:53:35 492

原创 Muon 优化器代码实现详解

Muon 优化器通过引入Newton-Schulz 正交化,为深度学习中的2D 权重矩阵(如线性层和卷积层的权重)提供了一种形状感知的更新方式。它有效地将更新方向投影到了一个更“正交”的空间,有助于稳定训练和提高收敛速度,尤其是在训练大型模型如 LLMs 时展现出优势。关键限制仅支持 2D 矩阵: Muon 仅适用于 2D 参数(如隐藏层权重),偏置(bias)和 Embedding 层参数应使用 AdamW 或其他标准优化器进行优化。计算开销。

2025-11-14 17:58:05 1090

原创 Character.ai 团队研发的 Kaiju 大模型训练方案介绍

原文链接:https://blog.character.ai/technical/inside-kaiju-building-conversational-models-at-scale/

2025-11-12 17:48:02 655

原创 ScaleRL:掌握大语言模型强化学习的规模化艺术

本文提出ScaleRL框架,通过40万+ GPU小时实验研究发现强化学习训练遵循S形计算-性能曲线,并据此设计了高效可预测的RL训练方案。

2025-11-10 23:44:53 943

原创 Anthropic 经济指数(Economic Index)概览

原文链接:https://www.anthropic.com/economic-index#us-usage。

2025-11-10 21:21:39 1066

原创 KIMI LINEAR: AN EXPRESSIVE, EFFICIENT ATTENTION ARCHITECTURE

2025 年 Moonshot AI 团队提出的混合架构模型 Kimi Linear,设计了硬件高效的线性注意力模块 Kimi Delta Attention(KDA),在 Gated DeltaNet(GDN) 的基础上加入了更细粒度的门控机制。预训练了一个 具有 30 亿激活参数、总计 480 亿参数的 Kimi Linear 模型,其结构基于 KDA 与 Multi-Head Latent Attention(MLA) 的逐层混合。实验结果表明,在使用相同训练配方的情况下,Kimi Linear 在所

2025-11-08 18:15:50 574

原创 IGPO 一种用于multi-turn LLM Agent RL训练的方法

IGPO 提出以模型自身 belief 更新作为过程级内在监督的思路,既有一定的理论支撑,也在工程上展示了可行性与性能改进的证据。

2025-10-29 16:50:30 1028

原创 Evaluating Long Context (Reasoning) Ability

随着上下文窗口突破百万级,大模型似乎能“读懂一切”。但事实真是如此吗?本文剖析当前主流长上下文基准(如 MRCR、PSRBench)存在的局限,提出更贴近真实任务的评测方式——LongCodeEdit

2025-10-25 18:14:08 1061

原创 σReparam:STABILIZING TRANSFORMER TRAINING BY PREVENTING ATTENTION ENTROPY COLLAPSE

2023 年苹果公司提出一种简单的权重重新参数化方法 σReparam,能够有效缓解熵坍塌问题,从而显著提升 Transformer 的训练稳定性与鲁棒性。

2025-10-24 18:27:02 651

原创 DeepSeek-OCR: Contexts Optical Compression 详解

2025 年 Deepseek 团队提出的 DeepSeek-OCR 算法,文本 token 的数量在视觉 token 的 10 倍以内(即压缩率 < 10×)时,DeepSeek-OCR 可实现 97% 的解码(OCR)精度;即使在 20× 压缩率下,OCR 准确率仍可保持在约 60%。这为诸如历史长上下文压缩、LLM 记忆遗忘机制等研究方向展现出相当可观的潜力。

2025-10-22 16:17:01 900

原创 Peri-LN: Revisiting Normalization Layer in the Transformer Architecture

2025 年 KAIST 对最新很多工作中使用的新 layernorm 使用方案 Peri-LN 进行了详细的分析,相比于 Post-LN 梯度容易衰减,深层训练不稳定问题,以及 Pre-LN 虽改善梯度流,却导致激活值方差指数爆炸(massive activations),引起数值不稳定问题,Peri-LN 通过在每层子模块的输入与输出两端都施加 LN,从而在方差控制与梯度流之间取得平衡。

2025-10-21 18:04:50 782

原创 ReZero is All You Need: Fast Convergence at Large Depth

特性效果参数增加每层仅 1 个标量理论基础动态等距(Dynamical Isometry)可训练深度可达上万层收敛速度最高提升 15 倍通用性适用于 FCN、ResNet、Transformer 等任意残差架构最新的理论工作把 Fixup / SkipInit / ReZero 等总结为“缩放残差分支以匹配深度增长”的共同原则:用初始化或门控,把优化轨迹约束在条件数友好的区域,待网络“站稳”后再逐步提升表达力。

2025-10-17 15:25:54 982

原创 OpenAI 最新开源模型 gpt-oss 架构与训练解析

2025 年 8 月 OpenAI 发布了两款模型,低成本同时有高性能。这是自 GPT-2 以来首次开放权重的语言模型,本文详细介绍 gpt-oss 的架构和训练。

2025-10-15 15:54:26 1894

原创 Qianfan-VL: Domain-Enhanced Universal Vision-Language Models

2025 年百度云团队提出的 Qianfan-VL 模型,所有 Qianfan-VL 模型均在百度昆仑 P800 芯片上完成训练,并通过创新的并行策略与计算-通信融合技术,在超过 5000 芯片的集群上实现了 **90%+ 的扩展效率**

2025-09-24 12:22:49 908

原创 终端复用工具 tmux 的使用方式与推荐配置

tmux 是开发者必备的终端利器,能够极大提升工作效率。通过安装、学习基础命令,再配合合理配置,你就能在命令行中享受媲美 GUI 的多任务体验。推荐大家先熟悉基本操作,再根据自己的习惯调整配置。本文提供的配置是一份高效通用的模板,适合大多数开发场景。

2025-08-23 15:55:36 580

原创 不止于更深:Facebook AI CaiT 模型全方位深度解析

在Vision Transformer (ViT) 开启了用Transformer架构解决计算机视觉任务的大门之后,一个核心问题随之而来:我们能否像在NLP领域那样,通过简单地堆叠更多的层来构建性能更强的视觉模型?答案并非想当然的“是”。早期的尝试表明,直接加深标准的ViT模型会导致训练不稳定和性能饱和。

2025-08-12 19:20:24 750

原创 Score King:基于 Cursor + GPT5 实现的桌游计分神器(Web + Android)

“Score King (桌游计分王)” 是一个专为多人桌游设计的计分工具,涵盖 Web 端(Flask + HTML/JS)和 Android 原生 App(Kotlin + Jetpack Compose)。该项目方便玩家在浏览器或移动设备上轻松管理分数、设置胜利条件并自动判定胜利者。

2025-08-10 19:15:45 582

原创 Canon Layer 详解:Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Laye

2025 年 Meta 研究员朱泽园 (Allen-Zhu) 的工作,设计可控的合成预训练任务来验证不同模型架构的优劣。基于该合成预训练任务进行实验,提出 Canon 层,作为跨相邻 token 的水平“残差连接”,可灵活插入注意力前(Canon-A)、注意力内(Canon-B)、MLP 前(Canon-C)、MLP 内(Canon-D)。

2025-08-06 20:34:48 1148

原创 AI 编程学习网站分享:vibe-coding-tutorial

如果你对 AI 编程有点兴趣,想找几个好用的工具来提效,可以去逛逛这个教程网站 👉。内容不长、干货多,适合平时写代码时想借助 AI 省点力气的朋友。说不定能找到几个趁手的 AI 编程工具,让你以后写代码更轻松。

2025-08-04 16:58:46 4055

原创 KIMI K2 技术报告: OPEN AGENTIC INTELLIGENCE

2025 年 Kimi 推出了全新开源模型 Kimi K2,1T 总参数量的 MoE 模型,在 agent 和 coding 能力上表现突出。

2025-08-02 17:37:13 1027

原创 国内外大模型的代码能力实测与评估:Claude Sonnet 4、GPT4o、Deepseek R1、Kimi K2 等模型

本文围绕大模型的**编程能力评估**展开,结合两个具有代表性的公开评测榜单(LiveCodeBench 和 SWE-Bench),并以两个自构造的典型测试样例(小球物理模拟 + Triton 算子实现)作为补充,实测多个主流大模型的表现,包括 GPT-4o、Claude Sonnet 4、Gemini 2.5 Pro、Kimi K2、DeepSeek R1、豆包、Qwen3-235B 等。

2025-07-27 17:09:19 2034

原创 Vibe Coding 实践指南: Claude Code、Gemini CLI、Qwen Code、Codex

本文将介绍目前主流的几款 AI 编程 CLI 工具:Claude Code、Gemini CLI、Qwen Code、Codex(OpenAI),包括它们的安装使用方法、项目应用实战(主要以 Claude Code 为例)。

2025-07-27 16:54:58 3145

原创 AI Coding IDE 介绍:Cursor 的入门指南

Cursor 是一款 AI 驱动的代码编辑器,旨在通过先进的 artificial intelligence(人工智能)技术来提升开发者的生产力和编码效率。无论你是 AI 工具的爱好者,还是经验丰富的程序员,Cursor 都能为你的开发流程带来显著的改进。它不仅提供了智能的代码补全功能,还可以通过“问答”模式(Ask Mode)快速回答编码问题,甚至可以通过“代理”模式(Agent Mode)自动完成复杂的编码任务。

2025-07-27 15:53:33 1451

原创 Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

2025 年阿里 Qwen 团队的工作,系统性地探讨了门控机制在标准 softmax 注意力中的作用,揭示其对模型性能、训练稳定性和注意力动态具有显著影响。**研究结果表明在缩放点积注意力(SDPA)后应用 sigmoid 门控是提升效果最显著的方案**

2025-07-25 12:35:33 2013

原创 深入解析大语言模型推理优化

**本文将详细介绍 transformer 模型推理基础、推理成本预估、推理效率优化等内容,包括:** - KV Cache 的工作原理及其重要性 - 推理瓶颈分析与性能优化策略 - 分布式推理部署的最佳实践 - 前沿优化技术如推测采样等

2025-07-12 11:18:17 689

原创 百度求职内推

提供百度 2025-2026 年求职内推资格

2025-07-07 15:38:54 240

原创 百度2026校园招聘开始啦!快来投递你心仪的职位吧~

🚀👉。

2025-07-06 22:19:14 292

原创 百度文心 4.5 大模型详解:ERNIE 4.5 Technical Report

2025 年百度发布的 ERNIE 4.5 系列模型,技术报告很有深度,开源的诚意应该已经达到 deepseekv3 水平。ERNIE 4.5 包括具有 47B 和 3B 活跃参数的混合专家(Mixture-of-Experts, MoE)模型,其中最大模型的总参数量达到了 424B,同时还包括一个 0.3B 的稠密模型。

2025-07-05 16:59:42 1872

原创 MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

2025 年 minimax 推出的 MiniMax-M1 模型,全球首个开源权重的大规模混合注意力推理模型。MiniMax-M1 采用混合专家(Mixture-of-Experts, MoE)架构,并结合线性注意力机制,456B 总参数量,激活参数量 45B。还提出了增强 RL 效率的新算法 CISPO,MiniMax-M1 可以在 512 张 H800 GPU 上仅用三周完成完整 RL 训练,总租用成本仅为 534,700 美元。

2025-06-26 16:00:06 1017

原创 Kimi-Researcher 技术详解

2025 年 Kimi 发布的 Kimi-Researcher —— 一款擅长多轮搜索与推理的自主智能体。Kimi-Researcher 构建于 Kimi k 系列模型的内部版本之上,完全通过端到端的智能体强化学习(RL)训练而成。目前已能在 kimi 网页端进行体检。

2025-06-21 15:34:01 2673

原创 Advancing Expert Specialization for Better MoE

2025 年北邮提出的一个基于梯度的多目标优化框架,促进专家专业化和路由多样化,同时保持辅助损失中的负载平衡。引入了两个互补的目标,分别鼓励专家专业化和路由多样化。

2025-06-17 15:07:57 938

原创 面壁智能 MiniCPM4 技术报告:适用于边缘芯片的 0.5B/8B 级高效大模型

2025 年面壁智能 MiniCPM Team 成功开发出**适用于边缘芯片的 0.5B/8B 级高效大模型 MiniCPM4**。在终端设备上处理 128K 长文档时,实现了 7 倍的推理速度提升。

2025-06-11 17:48:28 946

原创 Hardware-Efficient Attention for Fast Decoding

2025 年普林斯顿大学提出的硬件友好 attention 设计,在 MQA/GQA 与 deepseek 提出的 MLA 基础之上继续优化,提出 Grouped-Tied Attention (GTA) 和 Grouped Latent Attention (GLA),实现更高推理效率的同时也能保持较好的模型效果。

2025-06-08 14:57:09 951

原创 Qwen3 技术报告详解

2025 年通义实验室发布的最新模型 Qwen3,首次在 Qwen 系列中使用了 MoE 架构,并且在一个模型中同时支持了推理和非推理模式,同时使用了大量的合成数据训练,达到了开源模型的 SOTA 榜单效果。

2025-05-28 20:30:00 2470

原创 GATED DELTA NETWORKS : IMPROVING MAMBA 2 WITH DELTA RULE

2024 年 Nvidia + MIT 提出的线性Transformer 方法 Gated DeltaNet,融合了自适应内存控制的门控机制(gating)和用于精确内存修改的delta更新规则(delta update rule),在多个基准测试中始终超越了现有的模型,如 Mamba2 和 DeltaNet。

2025-05-28 19:46:30 2252

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除