自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

昇腾开发者知识体系

一些关于昇腾和AI的东西

  • 博客(10)
  • 收藏
  • 关注

原创 A21a_昇腾MindSpeed迁移Megatron并行模型

本文详细介绍了将NVIDIA Megatron-LM框架迁移到华为昇腾NPU平台的完整流程,包括:迁移背景概述、环境准备、模型迁移、验证与问题排查。该方案充分利用昇腾NPU的硬件优势,在保证模型精度的同时提高训练效率,为自主算力平台的大模型训练提供了可行路径。

2025-05-30 10:56:09 1131

原创 A16a_昇腾MindSpeed MM微调多模态Qwen2.5-VL

本文介绍如何在昇腾MindSpeed MM框架下微调Qwen2.5-VL多模态大模型。内容涵盖环境准备、权重转换、数据预处理、微调参数配置、推理及评测全流程。重点展示了昇腾NPU相较于GPU的硬件优势,包括集群并行加速、自动化数据处理、显存优化等特性。教程适用于熟悉PyTorch和多模态开发的AI工程师,旨在2小时内掌握模型在昇腾平台的部署与优化方法。文中详细列出了关键环境变量配置和版本要求,为开发者提供开箱即用的实践指南。

2025-05-28 17:57:28 1030

原创 A20a_昇腾MindSpeed LLM训练和微调Qwen2.5

本教程基于昇腾MindSpeed LLM框架,指导开发者在2小时内完成Qwen2.5-7B大语言模型的训练与微调实践。主要内容包括: 环境准备:安装昇腾软件栈(驱动、固件、CANN工具包)及MindSpeed LLM训练加速库; 模型获取与转换:下载开源Qwen2.5-7B模型,将PyTorch权重转换为昇腾兼容格式; 预训练实战:配置分布式训练参数,在昇腾NPU上启动预训练任务; 指令微调:基于特定数据集对模型进行微调优化。 教程突出昇腾生态的硬件协同优势,包括混合并行策略、内存优化和通信加速等技术特性,

2025-05-28 09:43:11 1091 3

原创 A12a_昇腾部署DeepSeek并行推理

本文以DeepSeek模型为例,介绍了在昇腾平台上使用MindIE进行大模型推理部署的流程与优化方法,旨在帮助开发者高效完成模型推理部署与优化。主要内容包括:部署要求:BF16权重需4台Atlas 800I A2服务器,W8A8量化权重仅需2台。量化调优:支持多种量化类型(W4A8、W8A8 Dynamic、W8A8C8等),通过算法选择(如anti_method、act_method)、校准集调整、手动/自动回退等手段提升精度和性能。并行策略:详细说明DP、TP、SP、EP等并行方式配置,推荐不同场

2025-05-27 15:24:03 1307

原创 A11a_昇腾多模态推理:MindIE SD部署Wan2.1模型

摘要: 本文详细介绍了如何在昇腾AI处理器上使用MindIE SD框架部署Wan2.1多模态生成模型。内容包括环境准备(CANN、MindIE、Torch_npu安装)、模型权重获取及推理流程(单卡/8卡配置)。重点解析了视图生成模型的三大模块(Text Encoder、DiT、VAE)协同工作原理,并提供完整的命令行参数说明,适用于不同规模的视频生成任务。通过优化方案(算子优化/并行策略等)可充分发挥NPU性能优势。

2025-05-26 17:41:39 633

原创 00_目录汇总_昇腾开发者知识体系

为了更高效地开发算子,昇腾平台近期提供了CATLASS算子模板库,本教程是模板库编程的基础入门介绍,从最基础的环境配置,到如何让昇腾芯片发挥最大性能,再到实际调试技巧,十二个章节层层递进。特别适合那些刚接触昇腾开发、但又不熟悉芯片编程的人。比如您不需要一开始就理解什么是"bank冲突",但需要知道如何正确设置工具链。建议初学者先看第1-3章建立基础,再结合第11章和文末推荐的文档,逐步深入复杂场景。昇腾算子模板库(ACTLASS)采用五层分层架构。

2025-05-25 10:32:23 460

原创 A25a_昇腾模板库CATLASS

这是昇腾知识体系的配套预览材料。为了更高效地开发算子,昇腾平台近期提供了CATLASS算子模板库,本教程是模板库编程的基础入门介绍,从最基础的环境配置,到如何让昇腾芯片发挥最大性能,再到实际调试技巧,十二个章节层层递进。特别适合那些刚接触昇腾开发、但又不熟悉芯片编程的人。比如您不需要一开始就理解什么是"bank冲突",但需要知道如何正确设置工具链。建议初学者先看第1-3章建立基础,再结合第11章和文末推荐的文档,逐步深入复杂场景。本文面向初学者,旨在用最短篇幅讲清楚算子模板库的使用方法。

2025-05-24 10:29:27 1668

原创 A24a_昇腾算子开发异构编程基础

摘要: 本文是昇腾AI处理器算子开发的基础教程,涵盖从环境搭建到性能优化的全流程。主要内容包括:1)CANN软件安装与环境配置;2)开发工具链(ATC、msProf等)的使用方法;3)算子工程创建与编译流程;4)ST测试验证与性能分析;5)多卡系统配置与调试技巧。教程通过结构化步骤(如环境变量配置、工程目录生成)和实用命令(如npu-smi info),帮助开发者快速掌握昇腾异构编程要点,并提供编译安装包生成、CPU/NPU双模式调试等实战指导,适用于AI模型向昇腾平台的迁移与优化。(149字)

2025-05-24 10:16:12 594

原创 A24c_昇腾GEMM类算子优化

昇腾GEMM类算子开发优化摘要 本文系统介绍了昇腾平台上GEMM类算子(包括SGEMM和CGEMM)的开发流程与优化方法。主要内容涵盖: 开发基础:详细讲解昇腾算子开发环境搭建、AIC/AIV混合编程模型及SPMD并行计算框架。 实现方法:分步骤展示矩阵乘算子的代码结构,包括Tiling数据分块策略和Kernel计算的实现要点。 优化技术:重点介绍双缓冲、内存对齐等核心优化策略,以及如何通过L2缓存优化减少数据搬运开销。 实践指导:提供完整的编译部署流程说明和性能分析方法,包含调试接口使用和性能指标采集工具

2025-05-24 10:13:07 1128

原创 A24b_昇腾算子注册与模型迁移

本文介绍了昇腾NPU模型迁移的全流程与方法论,重点解析了迁移的价值、挑战及解决方案。主要内容包括: 迁移价值:昇腾NPU提供更高算力密度和能效比,如船脸识别模型迁移后推理速度提升100倍以上。 核心挑战:包括算子适配、动态Shape、精度差异和性能调优等问题,并给出了具体解决方案。 四阶段方法: 迁移分析:环境准备和兼容性核查 代码适配:CUDA接口替换和自定义算子开发 精度验证:功能验证和精度比对 性能优化:瓶颈定位和并行策略 工具链:介绍了CANN、PyTorch NPU插件等关键工具及其协同工作流程。

2025-05-24 10:00:48 858 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除