AI模力圈-CSDN博客

原创多层感知机（MLP）：深度学习中的基础构建模块

本文将系统介绍 MLP 的结构原理、核心特性、典型应用场景，并结合昇腾 NPU 的硬件优势，探讨其在实际部署中的优化路径。

2026-04-07 00:31:34 85

原创混合专家模型（MoE）架构深度解析：从专家本质到负载均衡

随着大语言模型规模持续扩大，参数量与计算开销呈指数级增长，传统稠密模型在推理效率与训练成本上面临严峻挑战。混合专家模型（Mixture of Experts, MoE）应运而生，通过引入稀疏激活机制，在保持模型容量的同时显著降低实际计算量。MoE 的核心思想是将前馈神经网络（FFN）层拆分为多个独立的“专家”子网络，由门控路由机制动态选择最适配的少数专家进行计算。本文将从专家本质、路由机制与负载均衡三个维度，深入剖析 MoE 架构的技术原理，并结合主流专家策略，为开发者提供系统性理解与实践参考。

2026-03-29 00:48:07 441

原创 WeMM多模态大模型在MindIE-LLM框架上的迁移适配实践

WeMM 是 WeChatCV 推出的最新一代多模态大语言模型。WeMM 具备动态高分辨率图片下的中英双语对话能力，在多模态大语言模型的榜单中是百亿参数级别最强模型，整体测评结果（Avg Rank）位居第一梯队。本文记录了将WeMM多模态大模型适配到MindIE-LLM推理框架的完整过程，迁移过程中重点解决了模型结构分析、权重转换、Embedding融合和服务化对接等关键技术挑战。

2026-03-03 10:59:04 624

原创 VILA1.5-8b40b模型昇腾NPU迁移适配实践

VILA 是由 NVIDIA Research 和麻省理工学院联合开发的一系列高性能视觉语言模型，它融合了计算机视觉和自然语言处理两大领域的技术，旨在实现更加智能和自然的图像理解和语言交互。VILA 是一种将视觉信息引入 LLM 的视觉语言模型，由视觉编码器、LLM 和投影仪组成，它们桥接了来自两种模态的嵌入。为了利用强大的 LLM，VILA 使用视觉编码器将图像或视频编码为视觉标记，然后将这些视觉标记输入 LLM，就好像它们是外语一样。这种设计可以处理任意数量的交错图像文本输入。

2026-03-02 17:29:48 597

原创强化学习场景分布式框架ray相关方案介绍

随着强化学习的热潮，ray这个分布式框架伴随着verl开始占据人们的视野，越来越多人选择用ray来实现自己的强化学习框架。这里简单从以下四个维度介绍ray框架的相关方案。本文仅介绍其中的ray基本概述这一章节。接触任何新框架时，我们总会围绕三个核心问题展开探索：它是什么？为何而生？该如何用？对于Ray这一分布式计算框架，我们同样从这三个维度切入，快速建立认知框架——前两个问题将简要带过（深入可参考其奠基论文），本文核心聚焦于实际使用层面的技术细节。Ray是由伯克利大学RISE实验室提出的。

2026-03-02 17:09:08 722

原创 triton算子性能测试指导

本文介绍了triton算子性能测试方法，重点讲解了triton.testing模块中的do_bench基准测试工具和perf_report+Benchmark性能对比方案。do_bench通过设备同步、缓存清除等机制提供精确性能测量，支持多种统计方式。文章以vector_add算子为例，展示了如何测试triton实现与PyTorch原生的性能差异。此外还介绍了perf_report装饰器与Benchmark类的使用方法，支持自动生成不同参数组合下的性能对比图表，适用于NPU环境下的算子优化评估。测试结果表明

2026-02-28 17:35:08 628

原创多模态MOE—理解类模型Qwen3-VL-Moe结构分析

摘要：Qwen3-VL是阿里推出的新一代多模态大模型，采用"DeepStack"架构与MoE技术结合，优化了长视频和高分辨率图像的推理效率。模型包含Vision Encoder、Projector和LLM三部分：Vision Encoder支持原生分辨率输入和动态token处理；Projector通过DeepStack策略将视觉信息注入LLM多层，增强细节理解；LLM部分提供MOE和Dense两个版本，采用Interleaved-MRoPE编码处理时空关系。多模态融合过程包括特征提取、拼

2026-02-27 17:28:15 635

原创【深度解析】多模态MoE模型训练策略：LLaVA-MoE与Kimi-VL

本文对比分析了两种多模态混合专家模型(MoE)的训练策略。LLaVA-MoE采用三阶段渐进式训练：1)视觉-语言对齐(冻结ViT和LLM，训练投影器)；2)指令遵循能力训练(解冻LLM)；3)MoE结构优化(训练路由器和专家)。Kimi-VL则采用四阶段训练：1)单独预训练ViT和LLM；2)图文理解训练；3)联合冷却；4)长内容扩展训练，特别强化了128K长文本和高分辨率图像处理能力。两种策略各有优势，LLaVA-MoE适合稳定训练，Kimi-VL擅长长文本和高分辨率场景。

2026-02-26 18:53:46 516

原创多模态基础介绍

文本 (Text)图像 (Image)音频 (Audio)视频(Video)等，在AI学习我们又通常分为多模态理解和多模态生成。多模态理解：模型接收图像、音频或视频，将其转化为计算机可理解的语义或文本。比如：给一张照片，问AI“图里的人在干什么？多模态生成：模型根据输入的指令（通常是文本），创造出新的视觉、听觉内容。比如：视频素材生成。MindSpeed-MM:华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。多模态理解经典架构。

2026-02-14 15:30:31 664

原创强化学习算法原理：PPO、GRPO、DAPO

然而，对空间中对所有可能性进行穷举是不可能的，因此通常做法是采样一些轨迹（N个动作），用它们的reward来判断策略的好坏，并调整现有策略（网络权重），使高优势动作的概率增加，低优势动作的概率减少。GAE引入了一个新的参数λ,当λ=0的时候，GAE会退化成时序差分法，而λ=1的时候，GAE则会退化为蒙特卡洛法，而在之间取值的时候，就可以调节两者的权重，从而寻找一个最优的平衡点。初始化与Actor模型一致，用于计算与Actor的差距，避免Actor模型训坏（朝不受控制的方向更新，产生较大偏差）。

2026-02-06 10:27:00 356

原创 AI大模型多模态知识地图

关注公众号：AI 模力圈作者：昇腾实战派【多模态-模型基础算法】Transformer基础【多模态-生成经典模型】T5 模型【多模态-生成经典模型】DiT原理及代码实现【多模态-生成模型实战】多模态生成强化学习框架DanceGRPO+FLUX模型部署【多模态-理解模型实战】Qwen3vl-8B基于veRL的强化学习训练适配流程【多模态-理解模型实战】Qwen2.5VL-72B模型128K长序列性能优化方法

2026-01-31 11:33:18 88

原创 Transformer基础

作者：昇腾实战派 * 电子咸鱼Transformer 架构是一种基于自注意力机制（Self-Attention）的深度神经网络模型，该架构彻底摒弃了传统序列建模中依赖循环结构的设计范式，实现了对输入序列的全局并行化建模，显著提升了训练效率与模型表达能力。相较于循环神经网络（RNN）及其变体（如 LSTM、GRU）在处理长序列时存在的序列依赖瓶颈与梯度传播。

2026-01-31 10:32:42 686

原创 Qwen2.5VL-72B模型128K长序列性能优化方法

近期，我们在NPU集群上开展了Qwen2.5VL-72B模型的128K长序列训练任务。针对多模态大模型在长序列场景下面临的显存压力和计算效率挑战，本文记录了FSDP2框架适配、显存异常管理、Ring/Ulysses/Hybrid混合序列并行、ViT-DP异构并行、重计算优化、模型加载优化（meta-device、cpu-init、dcp使能）等一系列关键技术攻关工作。需求背景。

2026-01-19 10:48:46 956

原创大模型FLOPs利用率_MFU计算方法与注意事项

MFU（Model Flop Utilization，模型浮点运算利用率）是衡量大模型训练 / 推理效率的核心指标，用于量化硬件（如 GPU）的浮点运算能力被模型实际利用的比例。其计算原理围绕 “理论最大算力” 与 “模型实际消耗算力” 的比值展开，直接反映了硬件资源的利用效率。在深度学习领域，评估模型的计算量通常涉及到多个指标，其中MACs（Multiply-Accumulate Operations）和FLOPs（Floating Point Operations）是两个核心概念。

2026-01-19 10:46:41 1002

原创 T5 模型：NLP Text-to-Text 预训练模型超大规模探索

作者：昇腾实战派 x 哒妮滋T5模型，是 Transfer Text-to-Text Transformer 的简写；Transfer 来自 Transfer Learning，预训练模型大体在这范畴，Transformer 也不必多说，Text-to-Text 是作者在这提出的一个统一训练框架，将所有 NLP 任务都转化成 Text-to-Text （文本到文本）任务。英德翻译：只需将训练数据集的输入部分前加上“translate English to German（给我从英语翻译成德语）” 就行。假设需

2026-01-09 14:16:47 752

pae_train_group2的博客

原创多层感知机（MLP）：深度学习中的基础构建模块

原创混合专家模型（MoE）架构深度解析：从专家本质到负载均衡

原创 WeMM多模态大模型在MindIE-LLM框架上的迁移适配实践

原创 VILA1.5-8b40b模型昇腾NPU迁移适配实践

原创强化学习场景分布式框架ray相关方案介绍

原创 triton算子性能测试指导

原创多模态MOE—理解类模型Qwen3-VL-Moe结构分析

原创【深度解析】多模态MoE模型训练策略：LLaVA-MoE与Kimi-VL

原创多模态基础介绍

原创强化学习算法原理：PPO、GRPO、DAPO

原创 AI大模型多模态知识地图

原创 Transformer基础

原创 Qwen2.5VL-72B模型128K长序列性能优化方法

原创大模型FLOPs利用率_MFU计算方法与注意事项

原创 T5 模型：NLP Text-to-Text 预训练模型超大规模探索

原创 DiT原理及代码实现

原创 Qwen3vl-8B基于veRL的强化学习训练适配流程

原创 Qwen2.5_vl_3b模型的NPU部署

原创大模型训练精度问题表现及工具使用

原创奇异值分解如何重塑优化器？Muon优化器技术解析

原创模型部署入门—MindSpeed实践指导

原创多模态生成强化学习框架DanceGRPO+FLUX模型部署

空空如也

空空如也