Gideon_k_Marx-CSDN博客

原创读代码3：OLMo3全详解 - layer2--Data （下）

本文详细解析了OLMo 3框架中data_loader.py模块的核心功能与实现机制。该模块作为训练数据的批次组织者，主要负责将数据集实例按批次组织并处理分布式训练中的数据切分。文章阐述了数据加载的两层架构（numpy_dataset.py定义实例，data_loader.py组织批次）、训练批次的核心概念（如global_batch_size、rank_batch_size等）以及DataLoader与Collator的协作方式。特别强调了全局顺序管理、分布式分发逻辑和状态管理机制，包括断点续训功能的实现

2026-03-27 17:33:40 232

原创读代码3：OLMo3全详解 - layer2--Data （上）

OLMo 3是AllenAI推出的开源语言模型，其核心框架OLMo-core采用模块化设计，包含数据层、模型层和训练流程。数据层采用双管线架构：官方预训练主线（mixes/→source_mixture.py→numpy_dataset.py→data_loader.py）和可组合式并行框架（composable/）。模型支持灵活配置，通过config.py实现dataclass与YAML/JSON的转换。项目提供完整的训练、生成和评测工具链，并开源了多种预定义数据混合配方（如OLMo-mix-0925-o

2026-03-27 17:22:54 250

原创读代码2：OLMo3全详解 - layer1--Foundation

OLMo3是一个开源的PyTorch深度学习框架，由AllenAI团队开发，专注于语言模型训练与评估。核心架构包含基础模块(配置、I/O、工具)、数据处理(采样、混合、tokenizer)、模型构建、训练流程和分布式支持。其特色包括灵活的混合数据源处理、可组合的数据管线算子、多种预定义数据配方，支持从样本级到token级的多粒度数据处理。项目提供详细的文档和代码解析，包括技术报告和CSDN系列文章，便于复现实验和定制开发。相关论文和代码已公开在arXiv和GitHub。

2026-03-11 17:02:09 396 1

原创读代码1：OLMo3全详解 - 安装、准备与项目架构

OLMo 3是AllenAI开源的大语言模型框架，核心组件包括数据处理、模型训练、分布式并行和评估模块。项目采用PyTorch构建，支持多级数据混合采样（文档/实例/token级）、灵活的分布式训练（DP/TP/PP/EP/CP）以及标准化评测流程。代码结构清晰，包含数据预处理管线（collator/dataloader/tokenizer）、模型核心实现、FP8精度支持及生成接口。关键特性包括可组合的数据源处理、checkpoint管理和多任务评估，适用于从预训练到推理的全流程开发。相关资源包括技术报告、

2026-02-04 19:03:52 332

原创读代码0：OLMo3全详解 - 从OLMo 3 Tech Report开始

OLMo系列是由AllenAI开发的开源大语言模型，最新版本OLMo3在架构和训练流程上进行了多项优化。该系列采用全开源模式，公开了从数据到训练代码的完整流程。OLMo3 Base模型在5.9T tokens上预训练，使用Dolma 3 Mix数据集，并引入滑动窗口注意力机制扩展上下文长度。后训练阶段包含监督微调、直接偏好优化和强化学习等步骤，开发了Think、Instruct和RL-Zero三种变体。实验表明OLMo3 32B性能接近Qwen3 32B，训练成本仅为Deepseek V3的一半。项目还配套

2026-01-31 18:12:46 765

原创离散分布采样优化：Gumbel分布、Gumbel-Max Trick与Gumbel-softmax

Gumbel分布是一种极值分布，用于描述一系列独立同分布随机变量的最大值的分布。在机器学习中，我们主要使用逆变换采样：如果U服从均匀分布U(0,1)，那么F−1U服从分布F。从逆变换采样出发，记Gumbel分布的CDF为FxF−1U−log−logU))

2025-11-25 21:03:34 359

原创条件计算系列6：Neurons in Large Language Models: Dead, N-gram, Positional

摘要： Meta发表在ACL 2024的研究揭示了大型语言模型FFN层的神经元活动规律。研究发现：神经元死亡现象：模型前50%层存在大量完全无激活的“死亡神经元”（66B模型某些层超70%），后半层神经元则普遍活跃，暗示低级到高级概念的特征空间转换。 n-gram检测器特性：存活神经元多作为n-gram检测器，浅层模式简单（如单词变体），深层模式复杂；13B+模型出现检测器数量“多→少→多→少”的阶段性变化，可能反映概念重组过程。信息移除机制：神经元激活时不仅提升下一token概率，还会显式清除当前输入

2025-10-19 19:43:22 1003

原创渐进式、渐进分析初步

本文基于《具体数学》第九章内容，重点讨论了渐进分析中的大O记号及其应用。文章首先通过组合数求和的例子展示了渐进分析的价值，即无需精确解也能把握函数增长趋势。随后介绍了函数增长率的比较符号（≺、≍、∼）及其性质，并详细阐述了大O记号的定义和使用场景。大O记号用于描述函数在极限情况下的上界行为，能有效忽略不重要的细节。文章强调了大O的本质是一个函数集合，并通过实例说明其在不同数学分析场景中的应用，为理解算法复杂度等实际问题提供了理论基础。

2025-10-09 18:43:50 439

原创条件计算系列5：LayerSkip Enabling Early Exit Inference and Self-Speculative Decoding

本文提出LayerSkip方法，通过早退机制实现自推测解码加速推理。核心创新包括：1）采用分层随机Dropout，浅层低Drop率、深层高Drop率；2）设计早退损失函数，使所有层共享同一LM头；3）利用早退输出作为草稿，剩余层进行验证，实现内存高效的自推测解码。实验在7B/13B规模的LLaMA模型上进行，涵盖预训练、持续训练和微调场景，在文本生成、编程和语义解析任务上实现近2倍加速。该方法无需额外模块，通过统一训练框架同时支持早退和自推测解码，为大规模模型推理优化提供了新思路。

2025-09-25 19:19:32 981

原创条件计算系列4：Fast and Robust Early-Exiting Framework for Autoregressive Language Models

本文提出了一种快速稳健的早退框架（FREE），通过将模型分为浅层和深层模块，并采用同步并行解码机制，有效解决了自回归语言模型推理延迟问题。FREE框架通过Beta混合模型自适应调整置信度阈值，显著提升了早退机制的准确性和效率。实验表明，该方法在减少计算开销的同时保持了模型性能，适用于不同规模的模型。

2025-09-04 19:22:08 919

原创综述系列1：A Survey on Parallel Text Generation From Parallel Decoding to Diffusion Language Models

本文综述了并行文本生成技术的最新进展，系统分析了自回归（AR）与非自回归（Non-AR）两类生成范式。随着大型语言模型（LLMs）的广泛应用，传统自回归逐token生成方式的效率瓶颈日益凸显。为突破这一限制，研究者提出了并行解码、扩散模型等多种并行生成方法，通过单步预测多token或重构生成流程显著提升推理速度。文章从理论角度比较了不同方法在速度、质量和效率上的权衡，探讨其与现有加速策略的协同潜力，并指出未来研究方向。作者还建立了GitHub资源库

2025-09-03 18:27:59 1134

原创条件计算系列3：Relaxed Recursive Transformers Effective Parameter Sharing with Layer-wise LoRA

本文是这个专栏的第三篇文章，这篇文章的作者来自于韩国科学技术院（KAIST）和谷歌deepmind。本文实验最大做到了2B模型，主要突破包括①预训练的transformer权重+LORA构成循环块的权重②结合recurisive transformer中Early-Exit的新推理范式，该范式可以进一步消除的推理过程中的气泡（bubble）。预训练transformer权重+LORA这个idea相当不错，在大规模并行中就可以每个GPU放由若干层构成的循环块以及LORA参数，这个架构在直觉上是计算高效的。

2025-08-29 15:14:18 1044

Gideon·K·Marx