1. 什么是NPU?
NPU(神经网络处理器)是一种专为神经网络计算设计的专用硬件加速器,其核心目标是高效执行深度学习模型的推理(Inference)和训练(Training)任务。与CPU和GPU不同,NPU通过定制化架构优化矩阵乘加运算(MAC)、激活函数和量化计算,显著提升能效比(TOPS/W)和计算密度(TOPS/mm²)。
NPU的核心特性:
-
定制化计算单元:
-
专用矩阵乘法引擎(如Google TPU的Systolic Array)。
-
支持混合精度计算(INT8/FP16/BF16),适配不同模型需求。
-
-
内存优化:
-
片上SRAM缓存减少数据搬运开销(如华为昇腾910的HBM2E显存带宽达1.5TB/s)。
-
权重/激活值压缩技术(如稀疏性加速)。
-
-
低功耗设计:
-
针对移动端优化的能效架构(如苹果A16 Bionic NPU功耗<5W)。
-
2. 为什么会出现NPU?
NPU的兴起源于以下技术需求与行业趋势:
(1) AI算力需求爆炸式增长
-
模型复杂度提升:
-
GPT-3(1750亿参数)训练需3640 PetaFLOPs-day,远超传统GPU集群能力。
-
-
实时性要求:
-
自动驾驶需在10ms内完成目标检测(如Tesla FSD芯片的NPU延迟<5ms)。
-
(2) 通用处理器的局限性
- <