自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 读代码3:OLMo3全详解 - layer2--Data (下)

本文详细解析了OLMo 3框架中data_loader.py模块的核心功能与实现机制。该模块作为训练数据的批次组织者,主要负责将数据集实例按批次组织并处理分布式训练中的数据切分。文章阐述了数据加载的两层架构(numpy_dataset.py定义实例,data_loader.py组织批次)、训练批次的核心概念(如global_batch_size、rank_batch_size等)以及DataLoader与Collator的协作方式。特别强调了全局顺序管理、分布式分发逻辑和状态管理机制,包括断点续训功能的实现

2026-03-27 17:33:40 232

原创 读代码3:OLMo3全详解 - layer2--Data (上)

OLMo 3是AllenAI推出的开源语言模型,其核心框架OLMo-core采用模块化设计,包含数据层、模型层和训练流程。数据层采用双管线架构:官方预训练主线(mixes/→source_mixture.py→numpy_dataset.py→data_loader.py)和可组合式并行框架(composable/)。模型支持灵活配置,通过config.py实现dataclass与YAML/JSON的转换。项目提供完整的训练、生成和评测工具链,并开源了多种预定义数据混合配方(如OLMo-mix-0925-o

2026-03-27 17:22:54 250

原创 读代码2:OLMo3全详解 - layer1--Foundation

OLMo3是一个开源的PyTorch深度学习框架,由AllenAI团队开发,专注于语言模型训练与评估。核心架构包含基础模块(配置、I/O、工具)、数据处理(采样、混合、tokenizer)、模型构建、训练流程和分布式支持。其特色包括灵活的混合数据源处理、可组合的数据管线算子、多种预定义数据配方,支持从样本级到token级的多粒度数据处理。项目提供详细的文档和代码解析,包括技术报告和CSDN系列文章,便于复现实验和定制开发。相关论文和代码已公开在arXiv和GitHub。

2026-03-11 17:02:09 396 1

原创 读代码1:OLMo3全详解 - 安装、准备与项目架构

OLMo 3是AllenAI开源的大语言模型框架,核心组件包括数据处理、模型训练、分布式并行和评估模块。项目采用PyTorch构建,支持多级数据混合采样(文档/实例/token级)、灵活的分布式训练(DP/TP/PP/EP/CP)以及标准化评测流程。代码结构清晰,包含数据预处理管线(collator/dataloader/tokenizer)、模型核心实现、FP8精度支持及生成接口。关键特性包括可组合的数据源处理、checkpoint管理和多任务评估,适用于从预训练到推理的全流程开发。相关资源包括技术报告、

2026-02-04 19:03:52 332

原创 读代码0:OLMo3全详解 - 从OLMo 3 Tech Report开始

OLMo系列是由AllenAI开发的开源大语言模型,最新版本OLMo3在架构和训练流程上进行了多项优化。该系列采用全开源模式,公开了从数据到训练代码的完整流程。OLMo3 Base模型在5.9T tokens上预训练,使用Dolma 3 Mix数据集,并引入滑动窗口注意力机制扩展上下文长度。后训练阶段包含监督微调、直接偏好优化和强化学习等步骤,开发了Think、Instruct和RL-Zero三种变体。实验表明OLMo3 32B性能接近Qwen3 32B,训练成本仅为Deepseek V3的一半。项目还配套

2026-01-31 18:12:46 765

原创 离散分布采样优化:Gumbel分布、Gumbel-Max Trick与Gumbel-softmax

Gumbel分布是一种极值分布,用于描述一系列独立同分布随机变量的最大值的分布。在机器学习中,我们主要使用逆变换采样:如果U服从均匀分布U(0,1),那么F−1U服从分布F。从逆变换采样出发,记Gumbel分布的CDF为FxF−1U−log−logU))

2025-11-25 21:03:34 359

原创 条件计算系列6:Neurons in Large Language Models: Dead, N-gram, Positional

摘要: Meta发表在ACL 2024的研究揭示了大型语言模型FFN层的神经元活动规律。研究发现: 神经元死亡现象:模型前50%层存在大量完全无激活的“死亡神经元”(66B模型某些层超70%),后半层神经元则普遍活跃,暗示低级到高级概念的特征空间转换。 n-gram检测器特性:存活神经元多作为n-gram检测器,浅层模式简单(如单词变体),深层模式复杂;13B+模型出现检测器数量“多→少→多→少”的阶段性变化,可能反映概念重组过程。 信息移除机制:神经元激活时不仅提升下一token概率,还会显式清除当前输入

2025-10-19 19:43:22 1003

原创 渐进式、渐进分析初步

本文基于《具体数学》第九章内容,重点讨论了渐进分析中的大O记号及其应用。文章首先通过组合数求和的例子展示了渐进分析的价值,即无需精确解也能把握函数增长趋势。随后介绍了函数增长率的比较符号(≺、≍、∼)及其性质,并详细阐述了大O记号的定义和使用场景。大O记号用于描述函数在极限情况下的上界行为,能有效忽略不重要的细节。文章强调了大O的本质是一个函数集合,并通过实例说明其在不同数学分析场景中的应用,为理解算法复杂度等实际问题提供了理论基础。

2025-10-09 18:43:50 439

原创 条件计算系列5:LayerSkip Enabling Early Exit Inference and Self-Speculative Decoding

本文提出LayerSkip方法,通过早退机制实现自推测解码加速推理。核心创新包括:1)采用分层随机Dropout,浅层低Drop率、深层高Drop率;2)设计早退损失函数,使所有层共享同一LM头;3)利用早退输出作为草稿,剩余层进行验证,实现内存高效的自推测解码。实验在7B/13B规模的LLaMA模型上进行,涵盖预训练、持续训练和微调场景,在文本生成、编程和语义解析任务上实现近2倍加速。该方法无需额外模块,通过统一训练框架同时支持早退和自推测解码,为大规模模型推理优化提供了新思路。

2025-09-25 19:19:32 981

原创 条件计算系列4:Fast and Robust Early-Exiting Framework for Autoregressive Language Models

本文提出了一种快速稳健的早退框架(FREE),通过将模型分为浅层和深层模块,并采用同步并行解码机制,有效解决了自回归语言模型推理延迟问题。FREE框架通过Beta混合模型自适应调整置信度阈值,显著提升了早退机制的准确性和效率。实验表明,该方法在减少计算开销的同时保持了模型性能,适用于不同规模的模型。

2025-09-04 19:22:08 919

原创 综述系列1:A Survey on Parallel Text Generation From Parallel Decoding to Diffusion Language Models

本文综述了并行文本生成技术的最新进展,系统分析了自回归(AR)与非自回归(Non-AR)两类生成范式。随着大型语言模型(LLMs)的广泛应用,传统自回归逐token生成方式的效率瓶颈日益凸显。为突破这一限制,研究者提出了并行解码、扩散模型等多种并行生成方法,通过单步预测多token或重构生成流程显著提升推理速度。文章从理论角度比较了不同方法在速度、质量和效率上的权衡,探讨其与现有加速策略的协同潜力,并指出未来研究方向。作者还建立了GitHub资源库

2025-09-03 18:27:59 1134

原创 条件计算系列3:Relaxed Recursive Transformers Effective Parameter Sharing with Layer-wise LoRA

本文是这个专栏的第三篇文章,这篇文章的作者来自于韩国科学技术院(KAIST)和谷歌deepmind。本文实验最大做到了2B模型,主要突破包括①预训练的transformer权重+LORA构成循环块的权重②结合recurisive transformer中Early-Exit的新推理范式,该范式可以进一步消除的推理过程中的气泡(bubble)。预训练transformer权重+LORA这个idea相当不错,在大规模并行中就可以每个GPU放由若干层构成的循环块以及LORA参数,这个架构在直觉上是计算高效的。

2025-08-29 15:14:18 1044

原创 条件计算系列2:Mixture-of-Recursions Learning Dynamic Recursive Depths for Adaptive Token-Level Computation

本文是这个专栏的第二篇文章,这篇文章的作者来自于韩国科学技术院(KAIST)和魁北克人工智能研究所(mila),Google团队也参与了这个工作但主要是技术指导。本文于2025年发布于arxiv上。这个工作主要是基于Recursive Transformer的这篇文章的实验部分使用了参数从135M到1.7B的,还是单卡能塞下,所以还需要进一步考虑便于大规模并行实现的动态深度(dynamic depth)的实现方式。

2025-08-27 15:37:59 785

原创 条件计算系列-1:Mixture-of-Depths Dynamically allocating compute in transformer-based language models

这篇文章是谷歌deepmind于2024年发布在arxiv上的。这个工作是基于静态计算图的,采用了类似于MoE的方法,通过动态的token级别的路由来决定网络的深度(参与该block的计算,或者是通过残差链接直接跳过这个block)。如下图所示:该图的左半部分展示了一次token级别的路由决策,对于tokenxix_{i}xi​,router给出权重是0.41,所以跳过这个block,通过残差链接直接送到下一层。而对于tokenxi1x_{i+1}xi1​。

2025-08-26 10:03:31 693

原创 贝尔曼方程-推导与联系

由定义出发,可以得VVV与QQQvπsEa∼π⋅∣sqπsaV−Qvπ​sEa∼π⋅∣s​qπ​sa)]V−QvπsEa∼π⋅∣sEr∣saγEs′∼p⋅∣savπs′V−VqπsaEr∣saγEs′∼p⋅∣savπs′Q−VqπsaEr∣saγEs′∼p⋅∣saE。

2020-04-12 02:12:09 6490 12

原创 当凸函数可微时子梯度与梯度等价的证明

摘要:本文证明了可微凸函数的梯度是其唯一的子梯度。通过构造辅助函数$\phi(t)$和$\psi(t)$,利用凸性和可微性,推导出$\nabla f(x)$满足子梯度定义,并证明任何其他子梯度$z$都必须等于$\nabla f(x)$。该结论表明可微凸函数的梯度在优化问题中具有唯一性。

2020-04-12 01:10:19 493

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除