上海昇腾AI训练营笔记

最新推荐文章于 2024-11-27 15:50:31 发布

Elec Liu

最新推荐文章于 2024-11-27 15:50:31 发布

阅读量1.2k

点赞数 5

文章标签：人工智能笔记

本文链接：https://blog.csdn.net/qq_44629819/article/details/140515005

版权

Ascend C简介

在这里插入图片描述

上层应用层。包括深度学习框架、AI框架适配、创新算子及领域加速库和人工智能应用，负责开发和运行AI模型及应用。
中间计算架构层。由AscendCL异构计算语言、GE图引擎、Ascend C算子开发语言、AOL算子加速库、HCCL集合通信库和Runtime运行时组成，负责计算任务的分解、优化和执行。
底层硬件层。包括Driver驱动和Ascend AI处理器，负责硬件通信和高性能计算任务的实际执行。

在这里插入图片描述

华为AI加速卡（NPU）通过PCIe接口连接到服务器上。服务器作为主机（Host），与AI加速卡（Device）进行数据传输和控制。
AI加速卡内部包含多个AICORE计算核心，这些核心负责执行AI计算任务。每个AICORE相当于多核CPU中的一个核心，并共享全局内存（DDR内存）用于数据存储和处理。

在这里插入图片描述

AI Core可以抽象成三个流，分别是：
- 异步指令流：不同计算单元（Scalar、Vector、Cube、DMA）并行接收并执行指令。
- 同步信号流：确保指令间依赖关系，按逻辑顺序执行，Scalar单元发同步信号。
- 计算数据流：DMA搬运数据至Local Memory，各计算单元处理后再搬运回Global Memory。

在这里插入图片描述

AI core 支持标量、向量和矩阵运算
- 标量计算是简单的逐个操作，如int z = x + y 。
- 向量计算能同时处理多个数据，例如NPU一个核可以在一个周期内处理128 个FP16 加法。
- 矩阵计算如C = A * B，NPU一个核能在一个周期内完成16x16x16的矩阵乘法。

在这里插入图片描述

在这里插入图片描述

核函数（Kernel Function）是直接在设备侧执行的代码，负责实现算子的所有功能。Ascend C和CUDA的核函数定义类似，使用__global__关键字，并通过参数列表和函数名进行调用。
使用变量类型限定符__gm__ uint8_t*来统一指针参数类型，方便管理设备侧的内存访问。规则建议包括核函数必须有void 返回类型，仅支持指针类型或内置数据类型作为参数。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

矩阵A（M×K）与矩阵B（K×N）相乘，得到一个中间结果矩阵（M×N）。然后，将一个偏置向量（bias，1×N）加到中间结果矩阵的每一行上，形成最终的输出矩阵C（M×N）

在这里插入图片描述

多核数据按照以下方式进行切分：
- 对于A矩阵，沿着M轴进行切分，切分成多份的singleCoreM，单核上处理K大小的数据。
- 对于B矩阵，沿着N轴进行切分，切分成多份的singleCoreN，单核上处理M大小的数据。
- 于C矩阵，由A的部分和B的部分相乘得到，单核上输出C矩阵大小为singleCoreM * singleCoreN。
核内切分按照下面方式进行：
- 对于A矩阵，沿M轴进行切分，切分成多份的baseM；沿K轴进行切分，切分成多份的baseK。
- 对于B矩阵，沿N轴进行切分，切分成多份的baseN；沿K轴进行切分，切分成多份的baseK。
- 对于C矩阵，由A和B的分块相乘并累加，得到C矩阵中对应位置的baseM * baseN大小的分块