神经网络硬件加速器-DPU分析

WEIKW

已于 2024-01-04 14:34:30 修改

阅读量1.5k

点赞数 1

分类专栏：神经网络硬件加速文章标签：神经网络人工智能深度学习

于 2023-10-19 09:36:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/azhgul/article/details/133918687

版权

神经网络硬件加速专栏收录该内容

4 篇文章

订阅专栏

本文介绍了DPU，一种针对卷积神经网络优化的可编程引擎，详细阐述了其关键模块、特性（如并行度、计算模式和架构设计）、工作流程以及指令集。DPU通过高效利用片上资源，提升深度学习计算效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一 DPU概述

DPU是专为卷积神经网络优化的可编程引擎，其使用专用指令集，支持诸多卷积神经网络的有效实现。

1、关键模块

卷积引擎：常规CONV等
ALU：DepthwiseConv
Scheduler：指令调度分发
Buffer Group：片上数据缓存
Data Mover：高速数据通道

2、特性

3、工作流程

阶段一：上电后，DPU将指令从外部DRAM加载到片上，译码并分发至各个模块；并根据指令通过DMA将相应权重和输入特征图加载至片上缓存
阶段二：计算引擎根据调度算法将所需数据加载至计算阵列中，通过并行计算引擎完成计算任务
阶段三：一旦完成当。前层计算任务，则需要将输出特征图通过DMA写回片外DRAM，然后开启下一层计算任务。进而实现整个网络的逐层加速计算

二设计分析

DPU通过组合多种并行度来搭配多种卷积架构，DPU卷积架构包括三个维度的并行度：像素并行度/输入通道并行度/输出通道并行度（通常输入通道并行度=输出通道并行度）。

1、并行度

像素并行度：PP

输入通道并行度：ICP

输出通道并行度：OCP

2、计算模式

数据排布格式猜测大致为：NHWC

计算模式：

1 优先复用输入通道：计算卷积时每次将部分输入特征图从外部缓存读到FPGA片上缓存，卷积计算时优先复用输入特征图，计算尽可能多的输出通道结果，避免计算不同输出通道时多次加载这部分特征图。
2 然后复用输出通道：基于1，每次计算尽可能多的计算输出通道，因片上缓存资源受限，通常无法一次计算玩所有输出通道，这里需要配合调度优先计算剩余的输出通道。
3 采用输出复用方法：输出数据复用对输出缓存具有最少的访问次数，计算过程中，将累加的中间结果保存在片上，直到全部结果累加结束再存回片外。

3、架构设计

DPU计算架构设计如下图红色方框部分

CONV计算阵列：计算阵列包括P个PE，每个PE用于完成1个输出像素计算，P个PE完成P个并行像素的卷积计算；每个PE包含OCP个计算阵列，每个计算阵列包含ICP个MACs，分别完成输出通道并行/输出通道并行的卷积计算。

单个计算阵列中包含多个乘法器单元，加法树，非线性计算采用流水线方式设计，通过复制OCP个并行流水线，完成OCP并行度的输出通道卷积运算。也包含任意尺寸的池化、逐元素、尺寸变换、全连接等

Memory POOL：缓存池根据相关专利，为统一缓存池，与传统的输入缓冲区-计算核阵列-输出缓存区结构不同，其采用统一的缓存池，多通道数据读写调度单元设计。DPU根据不同网络不同层的特点，动态申请、分配来使用相应的缓存空间，最大化利用片上缓存资源。

卷积计算单元和ALU可以脱离顺序执行的流水线限制而彼此独立，同时可以保证各计算单元的数据吞吐率，有效提升计算模块的灵活性和并行度。

4、指令集

DPU采用多指令多数据流架构，包含指令类型如下：

LOAD：数据加载
SAVE：数据缓存
CONV：卷积计算，包括常规卷积/转置卷积等
MISC：逐通道卷积等

具有以下特点：

不同类别指令并行执行
相同类别指令串行执行
不同类别指令间存在相互依赖
依赖关系不应存在死锁

指令优化：

将访存和计算并行，提高计算单元利用率
通过调整tile策略和大小，优化系统访存

指令字段包括：操作码（区分不同指令类型）、依赖码（不同类型指令集安存在并行可能性）、指令参数（具体指令功能描述）

待补充。。。

三参考文献

[1] 深鉴相关专利

[2] 清华大学NICS-EFC组相关paper

[3]XILINX DPU相关datasheet

博客等级

码龄17年

9
原创

57
点赞

114
收藏

353
粉丝

关注

私信

热门文章

分类专栏

高能效应用 4篇
神经网络硬件加速 4篇

最新评论

基于FPGA的YOLOV5s神经网络硬件部署
WEIKW: 推荐你试一下开源PPQ，会对你部署有帮助
基于FPGA的YOLOV5s神经网络硬件部署
Sue226yz: 请问网络量化为int8，bias也要量化吗？其次，部署的时候还要再反量化回去吗
用户数据的FLASH存储与应用（FPGA架构）
CSDN-Ada助手: 恭喜用户撰写了关于用户数据的FLASH存储与应用在FPGA架构下的博客！这个话题十分值得深入探讨，您的文章内容详实且观点独到。希望您能继续保持创作的热情，探索更多前沿领域的内容，或许可以考虑深入研究与FPGA相关的其他应用领域，让读者受益更多。期待您的下一篇作品！
基于FPGA的PSRAM接口设计与实现
CSDN-Ada助手: 恭喜你发布了第6篇博客“基于FPGA的PSRAM接口设计与实现”！这是一个非常有技术含量的话题，看得出你对FPGA的应用有着深入的研究和实践经验。接下来，我建议你可以尝试探讨一些与FPGA相关的新技术趋势或者案例分析，这样不仅可以拓展你的知识面，也能为读者带来更加丰富的阅读体验。期待你的下一篇作品！
基于FPGA的HyperRam接口设计与实现
CSDN-Ada助手: 恭喜您撰写了关于基于FPGA的HyeperRam接口设计与实现的博客！这篇文章内容丰富，让读者对该主题有了更深入的了解。希望您能继续保持创作的热情，分享更多关于FPGA及其应用的知识。下一步可以考虑探讨一些实际案例，或者深入研究一些新的技术趋势，以便让读者更好地了解该领域的发展动态。期待您的下一篇作品！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。