自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 多层感知机(MLP):深度学习中的基础构建模块

本文将系统介绍 MLP 的结构原理、核心特性、典型应用场景,并结合昇腾 NPU 的硬件优势,探讨其在实际部署中的优化路径。

2026-04-07 00:31:34 85

原创 混合专家模型(MoE)架构深度解析:从专家本质到负载均衡

随着大语言模型规模持续扩大,参数量与计算开销呈指数级增长,传统稠密模型在推理效率与训练成本上面临严峻挑战。混合专家模型(Mixture of Experts, MoE)应运而生,通过引入稀疏激活机制,在保持模型容量的同时显著降低实际计算量。MoE 的核心思想是将前馈神经网络(FFN)层拆分为多个独立的“专家”子网络,由门控路由机制动态选择最适配的少数专家进行计算。本文将从专家本质、路由机制与负载均衡三个维度,深入剖析 MoE 架构的技术原理,并结合主流专家策略,为开发者提供系统性理解与实践参考。

2026-03-29 00:48:07 441

原创 WeMM多模态大模型在MindIE-LLM框架上的迁移适配实践

WeMM 是 WeChatCV 推出的最新一代多模态大语言模型。WeMM 具备动态高分辨率图片下的中英双语对话能力,在多模态大语言模型的榜单中是百亿参数级别最强模型,整体测评结果(Avg Rank)位居第一梯队。本文记录了将WeMM多模态大模型适配到MindIE-LLM推理框架的完整过程,迁移过程中重点解决了模型结构分析、权重转换、Embedding融合和服务化对接等关键技术挑战。

2026-03-03 10:59:04 624

原创 VILA1.5-8b40b模型昇腾NPU迁移适配实践

VILA 是由 NVIDIA Research 和 麻省理工学院 联合开发的一系列高性能视觉语言模型,它融合了计算机视觉和自然语言处理两大领域的技术,旨在实现更加智能和自然的图像理解和语言交互。VILA 是一种将视觉信息引入 LLM 的视觉语言模型,由视觉编码器、LLM 和投影仪组成,它们桥接了来自两种模态的嵌入。为了利用强大的 LLM,VILA 使用视觉编码器将图像或视频编码为视觉标记,然后将这些视觉标记输入 LLM,就好像它们是外语一样。这种设计可以处理任意数量的交错图像文本输入。

2026-03-02 17:29:48 597

原创 强化学习场景分布式框架ray相关方案介绍

随着强化学习的热潮,ray这个分布式框架伴随着verl开始占据人们的视野,越来越多人选择用ray来实现自己的强化学习框架。这里简单从以下四个维度介绍ray框架的相关方案。本文仅介绍其中的ray基本概述这一章节。接触任何新框架时,我们总会围绕三个核心问题展开探索:它是什么?为何而生?该如何用?对于Ray这一分布式计算框架,我们同样从这三个维度切入,快速建立认知框架——前两个问题将简要带过(深入可参考其奠基论文),本文核心聚焦于实际使用层面的技术细节。Ray是由伯克利大学RISE实验室提出的。

2026-03-02 17:09:08 722

原创 triton算子性能测试指导

本文介绍了triton算子性能测试方法,重点讲解了triton.testing模块中的do_bench基准测试工具和perf_report+Benchmark性能对比方案。do_bench通过设备同步、缓存清除等机制提供精确性能测量,支持多种统计方式。文章以vector_add算子为例,展示了如何测试triton实现与PyTorch原生的性能差异。此外还介绍了perf_report装饰器与Benchmark类的使用方法,支持自动生成不同参数组合下的性能对比图表,适用于NPU环境下的算子优化评估。测试结果表明

2026-02-28 17:35:08 628

原创 多模态MOE—理解类模型Qwen3-VL-Moe结构分析

摘要:Qwen3-VL是阿里推出的新一代多模态大模型,采用"DeepStack"架构与MoE技术结合,优化了长视频和高分辨率图像的推理效率。模型包含Vision Encoder、Projector和LLM三部分:Vision Encoder支持原生分辨率输入和动态token处理;Projector通过DeepStack策略将视觉信息注入LLM多层,增强细节理解;LLM部分提供MOE和Dense两个版本,采用Interleaved-MRoPE编码处理时空关系。多模态融合过程包括特征提取、拼

2026-02-27 17:28:15 635

原创 【深度解析】多模态MoE模型训练策略:LLaVA-MoE与Kimi-VL

本文对比分析了两种多模态混合专家模型(MoE)的训练策略。LLaVA-MoE采用三阶段渐进式训练:1)视觉-语言对齐(冻结ViT和LLM,训练投影器);2)指令遵循能力训练(解冻LLM);3)MoE结构优化(训练路由器和专家)。Kimi-VL则采用四阶段训练:1)单独预训练ViT和LLM;2)图文理解训练;3)联合冷却;4)长内容扩展训练,特别强化了128K长文本和高分辨率图像处理能力。两种策略各有优势,LLaVA-MoE适合稳定训练,Kimi-VL擅长长文本和高分辨率场景。

2026-02-26 18:53:46 516

原创 多模态基础介绍

文本 (Text)图像 (Image)音频 (Audio)视频(Video)等,在AI学习我们又通常分为多模态理解和多模态生成。多模态理解:模型接收图像、音频或视频,将其转化为计算机可理解的语义或文本。比如:给一张照片,问AI“图里的人在干什么?多模态生成:模型根据输入的指令(通常是文本),创造出新的视觉、听觉内容。比如:视频素材生成。MindSpeed-MM:华为昇腾面向大规模分布式训练的多模态大模型套件,支撑多模态生成、多模态理解。多模态理解经典架构。

2026-02-14 15:30:31 664

原创 强化学习算法原理:PPO、GRPO、DAPO

然而,对空间中对所有可能性进行穷举是不可能的,因此通常做法是采样一些轨迹(N个动作),用它们的reward来判断策略的好坏,并调整现有策略(网络权重),使高优势动作的概率增加,低优势动作的概率减少。GAE引入了一个新的参数λ,当λ=0的时候,GAE会退化成时序差分法,而λ=1的时候,GAE则会退化为蒙特卡洛法,而在之间取值的时候,就可以调节两者的权重,从而寻找一个最优的平衡点。初始化与Actor模型一致,用于计算与Actor的差距,避免Actor模型训坏(朝不受控制的方向更新,产生较大偏差)。

2026-02-06 10:27:00 356

原创 AI大模型多模态知识地图

关注公众号:AI 模力圈作者:昇腾实战派【多模态-模型基础算法】Transformer基础 【多模态-生成经典模型】T5 模型【多模态-生成经典模型】DiT原理及代码实现【多模态-生成模型实战】多模态生成强化学习框架DanceGRPO+FLUX模型部署【多模态-理解模型实战】Qwen3vl-8B基于veRL的强化学习训练适配流程【多模态-理解模型实战】Qwen2.5VL-72B模型128K长序列性能优化方法

2026-01-31 11:33:18 88

原创 Transformer基础

作者:昇腾实战派 * 电子咸鱼Transformer 架构是一种基于自注意力机制(Self-Attention)的深度神经网络模型,该架构彻底摒弃了传统序列建模中依赖循环结构的设计范式,实现了对输入序列的全局并行化建模,显著提升了训练效率与模型表达能力。相较于循环神经网络(RNN)及其变体(如 LSTM、GRU)在处理长序列时存在的序列依赖瓶颈与梯度传播。

2026-01-31 10:32:42 686

原创 Qwen2.5VL-72B模型128K长序列性能优化方法

近期,我们在NPU集群上开展了Qwen2.5VL-72B模型的128K长序列训练任务。针对多模态大模型在长序列场景下面临的显存压力和计算效率挑战,本文记录了FSDP2框架适配、显存异常管理、Ring/Ulysses/Hybrid混合序列并行、ViT-DP异构并行、重计算优化、模型加载优化(meta-device、cpu-init、dcp使能)等一系列关键技术攻关工作。需求背景。

2026-01-19 10:48:46 956

原创 大模型FLOPs利用率_MFU计算方法与注意事项

MFU(Model Flop Utilization,模型浮点运算利用率)是衡量大模型训练 / 推理效率的核心指标,用于量化硬件(如 GPU)的浮点运算能力被模型实际利用的比例。其计算原理围绕 “理论最大算力” 与 “模型实际消耗算力” 的比值展开,直接反映了硬件资源的利用效率。在深度学习领域,评估模型的计算量通常涉及到多个指标,其中MACs(Multiply-Accumulate Operations)和FLOPs(Floating Point Operations)是两个核心概念。

2026-01-19 10:46:41 1002

原创 T5 模型:NLP Text-to-Text 预训练模型超大规模探索

作者:昇腾实战派 x 哒妮滋T5模型,是 Transfer Text-to-Text Transformer 的简写;Transfer 来自 Transfer Learning,预训练模型大体在这范畴,Transformer 也不必多说,Text-to-Text 是作者在这提出的一个统一训练框架,将所有 NLP 任务都转化成 Text-to-Text (文本到文本)任务。英德翻译:只需将训练数据集的输入部分前加上“translate English to German(给我从英语翻译成德语)” 就行。假设需

2026-01-09 14:16:47 752

原创 DiT原理及代码实现

Latent diffusion models 直接在高分辨率像素空间中训练 Diffusion Model 会导致巨大的计算量。LDM[1]通过两阶段方法解决这个问题:\学习一个 AutoEncoder,用学习过的 AutoEncoderEEE将图像压缩为更小的空间表征。在zExz=E(x)zEx而非原图xxx上训练一个扩散模型,这个过程中EEE被冻结。在生成新图片时,从扩散模型中采样zzz,再最后经过学习过的解码器解码为图像xDzx=D(z)xDz。

2026-01-08 15:50:43 1127

原创 Qwen3vl-8B基于veRL的强化学习训练适配流程

摘要: 本文介绍了在昇腾AI环境下,将多模态大模型Qwen3-VL-8B的强化学习训练框架从SWIFT迁移至VeRL的适配过程。重点包括环境搭建(CANN、vLLM、VeRL安装)、数据集处理(Geo3k)、模型优化(代码修改)及训练脚本配置。实验使用GRPO算法进行RLHF训练,并对比了性能优化效果,为多模态大模型的强化学习任务提供了实践参考。

2025-12-30 21:15:41 1409

原创 Qwen2.5_vl_3b模型的NPU部署

本文详细介绍了在昇腾AI环境下的完整安装配置流程。主要内容包括:1)驱动固件安装步骤及版本检查;2)CANN工具链(Toolkit、Kernels算子包、NNAL加速库)的下载安装与配置;3)PyTorch框架及torch_npu插件的安装验证;4)apex加速库的安装说明。文中提供了官方文档链接、版本配套矩阵和详细的命令行操作指南,特别强调了安装顺序、用户权限管理和环境变量配置等关键注意事项。通过完整的安装流程,可为后续AI模型开发提供基础运行环境支持。

2025-12-30 21:02:44 1059

原创 大模型训练精度问题表现及工具使用

每张卡上的 module,api,kernel(O0)组成了一个Ranknode(O1),不同的 Ranknode 组成对应的T/D/PP域节点(O1.5),不同的并行域节点拼合形成完整(model)micro_step(O2),不同 micro step拼合形成 step(O3),多个step拼合形成区域段数据集表现,一般就loss趋势等。下面探讨精度问题定位过程中几个核心步骤。

2025-12-29 11:09:54 796

原创 奇异值分解如何重塑优化器?Muon优化器技术解析

Muon 优化器通过矩阵分解,优化了梯度更新方向,提高了训练效率,其变体Muon Clip优化器应用于Kimi-K2训练过程。相较于Adam优化器依赖梯度的一阶矩、二阶矩,Muon仅通过一阶矩就能得到更高的训练收敛效率。本文从矩阵特征值和奇异值分解出发,总结了Muon优化器的设计思路与基本原理,并在此基础上整理分析了Kimi-K2使用的Muon Clip在Muon基础上的改进点,供大家参考。

2025-12-29 10:14:05 859

原创 模型部署入门—MindSpeed实践指导

作者:昇腾实战派,Ming—L。

2025-12-27 16:39:34 868

原创 多模态生成强化学习框架DanceGRPO+FLUX模型部署

项目背景:昇腾实战派,Ming项目背景随着文生图模型的发展,出现了更多“小而美”的文生图后训练模型,通过使用flux模型以及DanceGRPO框架做生成模型强化学习,能够在模型尺寸较小的情况下,提升生成图片的质量与效果。

2025-12-27 16:36:35 954 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除