- 博客(777)
- 资源 (115)
- 收藏
- 关注
原创 10_verl-Rollout模块详解
async def resume(self, tags: list[str]): ... # 恢复权重/KV缓存到GPUasync def update_weights(self, weights: Generator): ... # 更新推理引擎权重async def release(self): ... # 释放GPU显存def generate_sequences(self, prompts: DataProto) -> DataProto: # 同步生成(可选)方法职责调用时机。
2026-06-13 13:44:18
12
原创 09_verl-模型引擎详解
BaseEngine是所有引擎的抽象基类,定义了模型训练的完整生命周期接口:fill:#333;important;important;fill:none;fill:none;important;important;important;important;important;important;important;important;important;important;important;important;important;important;important;important;
2026-06-13 13:43:23
51
原创 08_verl-Workers模块详解
融合工作器模式通过role参数灵活组合 Actor/Rollout/Ref 三种角色,在同一个 Worker 进程中实现 GPU 显存复用和零拷贝权重同步。统一训练抽象封装了BaseEngine,通过工厂模式屏蔽了 FSDP/Megatron/VeOmni/TorchTitan 等引擎后端的差异,提供统一的API。配置驱动架构:通过→→的配置链条,实现了"配置即架构"——修改 YAML 配置即可切换引擎后端,无需修改代码。MoE 路由一致性。
2026-06-13 13:38:17
76
原创 07_verl-Trainer模块详解
装饰器:根据条件跳过或替换函数执行单控制器编排:Trainer 在驱动进程上编排整个 PPO 循环,通过 Ray RPC 调度 Worker,自身仅执行轻量计算。这种设计使得训练逻辑集中、易于调试,同时充分利用分布式计算资源。可插拔算法注册表和装饰器实现了算法组件的开放-封闭原则——新增优势估计器或策略损失函数无需修改 Trainer 代码,只需注册即可。双模式数据传输。
2026-06-13 13:37:24
65
原创 06_verl-单控制器与分布式调度
单控制器模型:所有分布式调度逻辑集中在单进程中,Trainer 代码无需感知分布式细节装饰器驱动的声明式调度一行代码即可定义数据分发与汇总策略延迟实例化将类定义与实例化解耦,支持远程、按需、带资源约束的实例化ResourcePool 抽象:将集群资源建模为节点进程数列表,支持 split/merge/subpool 等灵活操作FusedWorker 共存:多模型共享同一组 GPU,通过路由方法调用TransferQueue 零拷贝:用元信息替代实际数据传输,大幅降低序列化开销。
2026-06-13 13:36:37
190
原创 05_verl-配置系统详解
BaseConfig 双面接口:通过继承BaseConfig同时具备 dataclass 的类型安全性和字典的灵活性,使得配置对象可以无缝对接 OmegaConf 生态冻结-可变分离机制在保证配置不可变性的同时,为运行时动态调整预留了受控出口。子类通过集合合并运算符扩展可变字段,体现了开放-封闭原则Hydra 声明式组合defaults指令 +${}插值 + 命令行覆盖的三层机制,实现了从默认配置到用户定制的渐进式覆盖,无需修改任何代码即可切换后端和调整参数target桥接实例化:YAML 中的。
2026-06-13 13:35:43
189
原创 04_verl-数据协议与通信机制
本文介绍了verl框架中的DataProto数据协议与通信机制。DataProto作为统一的数据协议,将分布式强化学习训练中的异构数据(张量数据、非张量数据和元信息)封装为一个整体,解决了模块间数据交换的标准化问题。 核心特点包括: 三要素封装结构:通过TensorDict、非张量字典和元信息字典统一管理各类数据 双模式序列化:支持torch和numpy两种序列化方式以适应不同传输场景 异步处理机制:DataProtoFuture实现计算与通信的解耦 自动拆分与合并:提供chunk/split/concat
2026-06-13 13:34:42
132
原创 03_verl-设计理念与核心原理
RL 控制流的单进程需求 vs LLM 计算流的多进程需求。编程模型层:HybridFlow 将控制流和计算流分离,Driver 编排算法,Worker 执行计算,@register装饰器弥合两者引擎层:3D-HybridEngine 融合训练与推理,通过权重重分片消除内存冗余数据层:DataProto 统一数据协议,chunk/concat/union 操作支撑自动数据分发与收集模块层:注册表 + 工厂模式实现引擎、奖励、回滚器的可插拔替换资源层。
2026-06-13 13:33:45
231
原创 02_verl-代码目录结构详解
verl代码结构采用"核心包+示例+插件"三层架构,核心包verl/包含训练、推理、检查点等基础设施,examples/提供算法示例,tests/和docs/保障质量。其设计理念体现在:1)训练(trianer/)与推理(workers/)解耦,通过DataProto协议通信;2)多后端可插拔,rollout和engine按vLLM/SGLang等不同后端实现子目录;3)分布式优先,single_controller/封装Ray调度逻辑;4)实验性功能隔离在experimental/。配置采用Hydra层次
2026-06-13 13:32:36
146
原创 01_verl-项目概览与架构总览
文章摘要 verl(Volcano Engine Reinforcement Learning)是字节跳动Seed团队推出的大语言模型强化学习训练库,核心定位为解决RLHF/RLVR训练中的工程挑战。该框架基于HybridFlow混合控制器编程模型,通过Dispatch/Collect机制实现异构计算框架协同,支持训练与推理阶段的灵活调度。verl提供多后端支持(FSDP/Megatron-LM/vLLM/SGLang等)、多种RL算法(PPO/GRPO/DAPO等)以及灵活的资源部署模式(共置/分离)。其
2026-06-13 13:30:48
269
原创 2026年06月11日全球AI前沿动态
模型竞争进入白热化阶段,Anthropic与OpenAI形成双雄对峙格局,新模型不再单纯追求参数规模,而是聚焦工程落地、安全管控、垂直场景适配,安全分级(通用版/受限专业版)成为头部大模型的主流运营模式。AI技术全面跨界融合,大模型能力延伸至编程、生物、网安、影视、汽车、医疗等数十个领域,具身智能、多模态、智能体成为技术迭代核心方向,端侧部署、轻量化、高推理速度成为重要发展趋势。
2026-06-11 22:49:23
389
原创 2026年06月10日全球AI前沿动态
2026年6月AI行业动态综述 全球AI领域近期迎来密集发展,呈现三大核心趋势:技术突破、智能体应用与硬件升级。技术层面,多模态大模型成为竞争焦点,苹果推出自研AFM模型并与谷歌Gemini深度整合,国内外厂商在轻量化、垂直领域持续突破,字节Lance、Next新程Alpha等开源模型表现亮眼。智能体生态快速成型,苹果Siri重构、微信AI开放平台及各类行业智能体推动AI向主动服务转型,结果分成等新型商业模式涌现。硬件方面,昇腾950DT、安纳智芯模拟芯片等创新产品提升算力效率,人形机器人价格下探至2.7万
2026-06-10 23:22:18
1005
原创 2026年06月05日全球AI前沿动态
AI从被动应答问题→主动自主完成全链路任务→递归迭代研发新一代AI系统。过去:LLM局限符号问答:2023-2025主流大模型以文本问答、内容生成为核心,依托离散Token范式模拟人类语言表达,仅停留在对人类语言的复刻,无法对接真实物理世界与企业业务流程;当下:Agent成为通用生产力载体。
2026-06-06 01:37:18
290
原创 2026年06月06日全球AI前沿动态
AI技术进入"智能体+世界模型+具身智能"新阶段 2026年AI发展呈现明显趋势:从大模型能力竞争转向智能体(Agent)、世界模型和具身智能的深度融合。核心变化包括: 技术转型:AI正从"语言模型"向"行动模型"演进,具备执行任务和构建下一代AI的能力,Anthropic的Claude已展现递归自我改进潜力。 关键突破: 世界模型成为机器人基础设施(如Kairos-Homeworld的30万住宅场景库) Agent系统重构企业软件生态(腾讯WorkBuddy等数字员工平台) 具身智能在消费领域形成数据飞轮
2026-06-06 01:23:26
637
原创 19-Hugging Face Transformers之Qwen3.5-MoE 系列详解:混合专家 + 线性注意力 + 多模态的完整生命周期
Mermaid 渲染失败: Parse error on line 41:...生成: full_attention 层: KV Cachelinea...fill:#333;important;important;fill:none;color:#333;color:#333;important;fill:none;fill:#333;height:1em;输出文本模型位置编码嵌入融合视觉编码输入每层256专家Top8 + 共享专家input_idsgrid_thw。
2026-06-05 22:35:41
133
原创 18-Hugging Face Transformers之GPT-2 案例详解:Decoder-only 自回归模型的完整生命周期
本文以GPT-2为例,详细解析了Decoder-only自回归模型的全生命周期实现。GPT-2作为OpenAI发布的因果语言模型,采用自回归生成范式,使用因果掩码确保每个位置只能看到历史token。文章通过架构定位图展示了GPT-2在语言模型家族中的位置,并对比了其与LLaMA等模型的核心差异。重点剖析了GPT-2的特殊设计:Conv1D线性层(权重形状与标准nn.Linear相反)、Post-Norm归一化方式、gelu_new激活函数等。通过类图和流程图详细说明了配置参数定义、权重绑定机制以及Conv1
2026-06-05 22:32:13
151
原创 17-Hugging Face Transformers之BERT 案例详解:Transformers 框架全模块串联
本文档详细解析了BERT模型在Transformers框架中的实现,重点包括: BERT作为Encoder-only架构的定位,与GPT、T5形成Transformer三大范式对比 BERT特有的双向注意力机制及其适用任务(MLM、NSP等7类任务) BertConfig的严格类型定义,使用@strict装饰器确保参数类型安全 模型配置的核心设计要点:model_type注册、属性别名映射机制 通过源码引用和架构图展示了BERT在Transformers生态中的完整实现路径,涵盖从配置定义到任务适配的关键环
2026-06-05 22:31:41
157
原创 16-Hugging Face Transformers之测试体系架构总览
注册自定义 doctest 标志 IGNORE_RESULTreturn True # 忽略输出比较# 替换 pytest 和 doctest 的默认实现。
2026-06-05 22:30:59
207
原创 15-Hugging Face Transformers之CLI 与工具架构总览
Transformers CLI 工具系统摘要 Transformers CLI 是 Hugging Face 提供的命令行工具集,基于 Typer 框架构建,包含六大核心功能: 架构设计:采用分层结构,包括入口层(cli/transformers.py)、命令层(chat/serve/download等)、渲染层(RichInterface)和服务层(OpenAI兼容API) 核心命令: chat:交互式对话客户端,连接本地服务 serve:启动OpenAI兼容API服务 download:模型下载工具
2026-06-05 22:30:27
235
原创 14-Hugging Face Transformers 模型实现模式深度分析
本文分析了Hugging Face Transformers框架中LLaMA模型的实现模式,并以BERT作为对比,系统梳理了Transformers框架的模型实现架构。主要内容包括: 目录结构层:每个模型拥有独立子目录,遵循标准命名规范,包含配置、模型实现、分词器等核心文件。 Config层:详细解析LlamaConfig的设计,包括模型类型标识、并行方案(TP/PP)、超参数定义和派生逻辑,重点说明LLaMA特有的GQA支持配置。 模型层:展示基础模型组件(如LlamaAttention、LlamaMLP
2026-06-05 22:29:20
212
原创 13-Hugging Face Transformers之AutoModel 自动分发机制深入分析
本文深入分析了Hugging Face Transformers中的AutoModel自动分发机制。该机制通过model_type自动选择正确的模型类、配置类和分词器类,实现零配置加载。核心架构包含四层:数据层(auto_mappings.py存储模型类型到配置类名的映射)、懒加载映射层(_LazyConfigMapping和_LazyAutoMapping实现延迟导入)、工厂基类层(提供from_pretrained等统一接口)和具体Auto类层(如AutoModel、AutoTokenizer)。系统采
2026-06-05 22:27:58
239
原创 12-Hugging Face Transformers之Pipeline 推理管道深入分析
Hugging Face Transformers 的 Pipeline 推理管道是一个高层 API,封装了模型推理的完整流程(预处理→推理→后处理),支持多种任务类型。其核心架构包含 Pipeline 基类层、核心流程层、组件加载层和执行上下文层。Pipeline 基类定义了统一接口和核心骨架,包括参数分发、设备管理和推理执行链。ChunkPipeline 子类支持分块处理长输入数据。该设计实现了自动组装模型组件、批量优化和设备透明化,用户可通过简单调用即可完成复杂推理任务。
2026-06-05 22:26:14
202
原创 11-Hugging Face Transformers 分布式与并行系统深度分析
本文深入分析 Hugging Face Transformers 库的分布式与并行系统架构,该系统采用多层次、可组合的设计理念,覆盖从数据并行到模型并行的完整场景。文章详细解析了 DeepSpeed 集成(ZeRO 优化)、FSDP 全分片数据并行、张量并行、MoE 专家并行、Accelerate 设备调度等核心模块,以及它们之间的协作关系。系统通过分层抽象实现模块解耦,支持配置互斥与组合(如 TP+EP 的 2D 并行),并采用渐进式初始化和全局配置可达等创新设计,为大规模模型训练提供高效灵活的分布式支持
2026-06-05 22:24:38
265
原创 10-Hugging Face Transformers 量化系统深度分析
本文深入分析了Hugging Face Transformers的量化系统架构,该系统支持20多种量化后端,采用策略模式设计。系统通过HfQuantizer基类定义统一接口,各量化方法实现具体策略类,由AutoHfQuantizer自动分发。架构分为用户调用层、自动分发层、抽象基类层、具体实现层、配置层和集成层,实现配置与执行分离、前后双阶段处理等核心设计原则。量化配置体系包含QuantizationMethod枚举定义的所有支持方法标识符,为系统提供关键配置依据。
2026-05-26 00:21:13
396
原创 09-Hugging Face Transformers 训练系统深度分析
本文深入分析了Hugging Face Transformers训练系统的架构设计。该系统采用"约定优于配置"理念,构建了一个功能完备、高度可扩展的训练框架。核心模块包括Trainer训练循环、TrainingArguments参数配置、回调系统、优化器管理、数据整理器等组件。系统初始化遵循严格的11步流程,涵盖参数设置、设备分配、模型初始化等关键环节。train()方法作为训练主入口,负责内存追踪、模型初始化等准备工作,体现了模块化设计和良好的扩展性。
2026-05-26 00:18:05
351
原创 08-Hugging Face Transformers 多模态处理系统深度分析
本文深入分析了Hugging Face Transformers的多模态处理系统架构。该系统采用分层设计,以ProcessorMixin为核心调度器,统一管理文本、图像、视频和音频等不同模态的处理流程。架构包含统一入口层、子处理器层、后端层、变换层和工具层,实现了模态解耦和参数优先级合并机制。系统支持PIL和Torchvision两种图像处理后端,并通过TypedDict实现类型安全的参数传递。文章详细解析了各组件功能及数据流,为理解Transformers的多模态处理机制提供了全面视角。
2026-05-26 00:15:32
401
原创 07-Hugging Face Transformers 分词器系统深度分析
本文深入分析了Hugging Face Transformers的分词器系统架构。系统采用多后端设计,包括PythonBackend慢分词器、SentencePieceBackend、TokenizersBackend快速分词器和MistralCommonBackend。核心基类PreTrainedTokenizerBase定义了统一接口,支持特殊Token管理和多种分词策略。文章详细剖析了各后端实现原理、BatchEncoding数据结构以及V5版本的重要改进,如慢快分词器转换、聊天模板系统和结构化输出解
2026-05-26 00:12:52
451
原创 06-Hugging Face Transformers 生成系统深度分析
Hugging Face Transformers 生成系统架构分析 本文深入解析了Hugging Face Transformers的文本生成系统架构,该系统采用模块化设计,包含以下核心组件: 配置层:通过GenerationConfig管理50+生成参数,支持多种生成模式(贪心/采样/束搜索等) 核心生成层:GenerationMixin提供统一的generate入口,实现9步标准生成流程 处理链:LogitsProcessorList和StoppingCriteriaList采用责任链模式,灵活组合各
2026-05-26 00:08:28
480
原创 05-Hugging Face Transformers 缓存系统深度分析
Hugging Face Transformers 缓存系统摘要 Hugging Face Transformers 的缓存系统是推理引擎的核心组件,负责高效存储和复用自回归生成过程中的 Key/Value 状态。该系统采用分层架构设计,主要包含: 缓存层体系:基于 CacheLayerMixin 抽象基类,实现动态/静态/量化/线性注意力等多种缓存层类型,支持自动注册机制。 缓存容器体系:提供 DynamicCache、StaticCache、QuantizedCache 和 EncoderDecoder
2026-05-26 00:06:01
421
原创 04-Hugging Face Transformers 注意力与掩码系统深度分析
注册表模式和使用实现全局+本地双层注册表,支持扩展和覆盖策略模式:不同注意力后端实现统一接口(),通过注册表动态选择函数组合模式:新版掩码系统通过and_masksor_masks组合掩码函数,实现声明式掩码定义懒加载模式:Flash Attention 通过延迟导入,避免未安装时的 ImportError装饰器模式装饰器在 RoPE 前向传播前自动更新频率适配器模式根据 FA 版本动态适配参数,屏蔽 API 差异单例模式确保编译后的 Flex Attention 只创建一次。
2026-05-21 00:26:24
424
原创 03-Hugging Face Transformers 模型系统深度分析
Meta 设备 + 延迟加载:V5 统一在 meta 设备上创建模型骨架,然后逐个填充权重,避免 CPU 上全精度初始化的内存浪费声明式权重转换:通过声明 checkpoint 与模型内部的映射关系,加载和保存共享同一套规则(反向执行)可逆操作链:每个都有reverse_op生成完整的反向转换,保证 save 时能还原到原始格式作用域隔离机制确保子模型的转换规则只匹配该子模块前缀下的键,避免跨模块冲突防护式初始化标记防止已加载的权重被重新初始化,确保即使是 PyTorch 内部引用也能被拦截。
2026-05-21 00:23:33
419
原创 02-Hugging Face Transformers 配置系统深度分析
rope_theta: float | None # 基础频率,默认 10000.0rope_type: str | None # RoPE 变体类型partial_rotary_factor: float | None # 部分旋转比例factor: float | None # 缩放因子original_max_position_embeddings: int | None # 原始最大位置编码长度attention_factor: float | None # 注意力缩放因子。
2026-05-21 00:20:45
432
原创 01-Hugging Face Transformers 核心基础设施深度分析
文件路径(约 187 行)文件路径(约 6 行)零成本抽象不加载任何后端,所有重量级导入延迟到实际使用时友好错误:缺少依赖时给出精确的安装指令,而非晦涩的自动发现:通过自动从源码解析导入结构,减少手动维护负担渐进式弃用提供从警告到错误的平滑升级路径类型安全_typing.py的 Protocol 模式在不引入循环依赖的前提下提供类型标注向后兼容和模块别名系统确保旧代码继续工作缓存优先:所有检测结果和导入结果都被缓存(@lru_cache),避免重复计算。
2026-05-17 23:10:13
501
原创 Hugging Face Transformers 源码全景解读
本文深入解析了Hugging Face Transformers框架的核心架构与设计理念。作为深度学习领域的模型定义枢纽,Transformers连接了训练与推理生态,支持200+模型实现和百万级模型检查点。其五层架构严格分层,从基础设施层到用户接口层逐级依赖,确保高效导入和模块化扩展。核心设计采用配置-模型-分词器三位一体结构,通过注册表机制实现插件式扩展,并运用懒加载技术优化启动性能。该框架通过开放-封闭原则,既保持核心稳定又支持灵活扩展,成为连接各类训练框架和推理引擎的关键协议层。
2026-05-17 01:14:43
516
原创 2026年05月16日全球AI前沿动态
AI产品单季亏损88亿元;上海交大/瑞金医院/创智学院:联合发布CX-Mind胸片诊断多模态大模型,采用"交错式推理"范式与CuRL-VPR课程强化学习,构建CX-Set数据集(23个公开数据集、70万张影像、260万条指令),在视觉理解、报告生成和时空对齐三大能力上平均提升25.1%,多中心医生主观评估排名第一。蚂蚁集团:百灵大模型开源旗舰思考模型Ring-2.6-1T,万亿参数,引入可调节推理强度机制(High/XHigh双模式),采用异步强化学习架构与"棒冰算法",提升万亿级模型训练稳定性;
2026-05-17 00:53:53
3180
原创 08-FlagEmbedding 支持的嵌入与重排序模型综述
FlagEmbedding 是北京智源人工智能研究院(BAAI)开发的开源嵌入和重排序模型框架,专注于检索增强大语言模型(RAG)领域。该项目提供了一套完整的工具链,包括推理、微调、评估和数据集,支持多种架构的嵌入和重排序模型。统一的 API 接口,支持多种主流模型完整的推理、微调和评估工具链多语言、多功能、多粒度的模型支持活跃的社区和持续的技术更新bge-m3核心特性:多功能(Multi-function):同时支持稠密、稀疏、多向量检索多语言(Multilingual)
2026-05-12 23:24:23
255
原创 07-FlagEmbedding 研究项目分析
Multi-Functionality(多功能)Multi-Linguality(多语言)Multi-Granularity(多粒度)。论文代码位置微调后的模型在目标任务上表现好,但在通用任务上性能下降(灾难性遗忘)无需额外训练,通过融合已有模型来适应新任务论文代码位置LLM-Embedder 是专门为增强大语言模型能力而设计的统一嵌入模型,支持多种检索增强场景。论文代码位置Activation-Beacon 是一种高效扩展大语言模型上下文窗口的技术,无需重新训练完整模型。论文代码位置。
2026-05-12 23:23:49
243
原创 06-FlagEmbedding 核心算法详解
算法模块核心功能关键特点嵌入表示文本到向量的转换支持多种 pooling 策略对比学习训练有效的表示空间基于交叉熵损失负样本策略提供多样化的负样本批内/跨设备负样本知识蒸馏大模型指导小模型KL 散度和 M3 KDMRL灵活的维度选择嵌套表示学习ColBERT & 稀疏多粒度检索M3 统一架构这些核心算法共同构成了 FlagEmbedding 强大的表示学习和检索能力,使得它在众多文本检索任务上取得了优异的性能。
2026-05-12 23:23:07
434
原创 05-FlagEmbedding 评估模块详解
统一的抽象接口:通过抽象基类统一各评估基准的接口模块化设计:各评估基准独立实现,易于扩展灵活的配置:支持多种参数配置(top-k、指标、输出格式等)缓存机制:支持缓存语料库向量和检索结果,提高效率多基准支持:覆盖主流的检索评估基准。
2026-05-12 23:22:18
390
原创 04-FlagEmbedding 微调模块详细分析
FlagEmbedding 的微调模块采用了分层抽象架构,通过抽象基类定义统一接口,再由具体实现类继承并实现具体功能。Embedder 微调和Reranker 微调。finetune/│ │ ├── base/ # 基础 Encoder-Only 实现│ │ └── m3/ # BGE-M3 特殊实现│ ├── base/ # 基础 Decoder-Only 实现│ └── icl/ # In-Context Learning 实现。
2026-05-12 23:21:14
379
apache-maven-3.3.9-bin.tar.gz
2017-09-16
apache-flume-1.7.0-bin.tar.gz
2017-09-23
hbase-1.3.1-src.tar.gz
2017-09-16
tensorflow-0.12.1-cp35-cp35m-win_amd64
2017-02-22
presto-cli-0.184-executable.jar
2017-09-24
zookeeper-3.4.9.tar.gz
2017-09-15
sighan-bakeoff
2018-08-16
crf++_0.58[linux and win]
2018-01-14
zh_msra_onto4_mrc4ner.zip
2021-03-02
en_core_web_sm
2020-05-25
fasttext.zip[windows]
2017-11-19
SemEval2010_task8_all_data
2020-05-25
Twisted系列教程等
2017-12-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅