神经网络硬件加速器-模型分析

WEIKW

已于 2024-01-04 14:34:51 修改

阅读量933

点赞数 2

分类专栏：神经网络硬件加速文章标签：神经网络深度学习机器学习

于 2023-03-14 08:55:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/azhgul/article/details/129516459

版权

神经网络硬件加速专栏收录该内容

4 篇文章 3 订阅

订阅专栏

一基本网络层数学模型

输入特征图尺寸为N*H*L，卷积计算通过M个尺寸为K*K*N的3维卷积核完成，每个卷积核在输入特征图上以S为步长滑动并进行3维卷积计算，最终生成尺寸为R*C*M的输出特征图。

CNN中的卷积层计算

卷积层计算伪代码

二数据复用

1、输入数据复用

输入数据复用对输入缓存具有最少的访问次数，其分为3个步骤：①计算核心把输入特征图读入局部输入寄存器；②计算核心充分复用这些输入数据，更新输出缓存中的所有相关的输出部分和；③更新后的输出部分和会重新写会输出缓存。当新的输入数据被读入计算核心时会重复上述3个步骤。

2、输出数据复用

输出数据复用对输出缓存具有最少的访问次数，其分为3个步骤：①计算核心把输入特征图的各通道读入局部的输入缓存器；②存储在计算核心输出寄存器中的输出部分和会被充分复用，以完成3为卷积通道方向上的完全累加；③最终的输出特征图会在池化之后再写入输出缓存。计算过程中不会再有其他对输出缓存的访问，对于剩余的输出特征图计算，会重复上述3个步骤。

3、权重数据复用

权重数据复用对权重具有最少的访问次数，其分为3个步骤：①计算核心读取Tn个输入特征图分块到局部的输入寄存器；②计算核心利用这些输入数据更新Tm个通道的输出部分和；③存储在权重缓存中的Tm个Tn通道的卷积核权重被充分复用，以更新存储在输出缓存中的Tm个通道的R*C输出部分和。重复上述3个步骤以完成整个卷积层的全部计算。

4、混合数据复用

该数据复用模式，将根据每一层单独分配针对该层最优的数据复用模式。因此涉及寻找最优的数据复用模式，需要探索各种分块参数下的不同模式的访存能耗。

三并行计算

尽管神经网络中的计算具有很强的可并行性，但是由于受到计算资源和存储资源的限制，往往不能全部同时映射到单个芯片上，因此需要设计一些调度方法将神经网络映射到计算芯片的计算阵列上依次执行。

1、并行计算

探索计算单元PE的并行性，获取高性能。

（1）像素并行性

分为卷积窗口内部并行/卷积窗口间并行

（2）输入通道并行性

（3）输出并行性

2、循环展开

通过最大化在PE和片上缓存上的数据复用，获取高能效。

对于某个神经网络加速，通常在有限的片外传输带宽限制下，通过高效的数据调度，驱动尽可能多的计算单元，以实现最高的有效吞吐量，同时要利用数据共享的特性，提高数据重用率，尽可能提升NPU吞吐量和能效。

（1）循环交换（Loop Interchange）：优化数据复用模式，减少访存次数

（2）循环分块（Loop Tiling）：优化卷积映射方法，提高计算资源利用率

为复用输入特征图，卷积核维度循环须在最内层：即要确定R/C/M/N的展开顺序

先计算输出通道循环M：要求更新权重，重利用输入特征图-时间维度复用输入像素

先计算输入通道循环N：要求更新权重和输入像素

先计算输出特征图高R和宽C：要求更新输入像素，重利用权重-时间维度复用权重

四应用案例分析

待补充

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
神经网络硬件加速器-模型分析

尽管神经网络中的计算具有很强的可并行性，但是由于受到计算资源和存储资源的限制，往往不能全部同时映射到单个芯片上，因此需要设计一些调度方法将神经网络映射到计算芯片的计算阵列上依次执行。②计算核心充分复用这些输入数据，更新输出缓存中的所有相关的输出部分和；计算过程中不会再有其他对输出缓存的访问，对于剩余的输出特征图计算，会重复上述。对于某个神经网络加速，通常在有限的片外传输带宽限制下，通过高效的数据调度，驱动尽可能多的计算单元，以实现最高的有效。通道的卷积核权重被充分复用，以更新存储在输出缓存中的。
复制链接

扫一扫

专栏目录

WEIKW CSDN认证博客专家 CSDN认证企业博客

码龄16年

7: 原创

30万+: 周排名

7万+: 总排名

5万+: 访问

: 等级

713: 积分

116: 粉丝

39: 获赞

8: 评论

82: 收藏

私信

关注

热门文章

分类专栏

神经网络硬件加速 4篇
高能效应用 3篇

最新评论

用户数据的FLASH存储与应用（FPGA架构）
CSDN-Ada助手: 恭喜用户撰写了关于用户数据的FLASH存储与应用在FPGA架构下的博客！这个话题十分值得深入探讨，您的文章内容详实且观点独到。希望您能继续保持创作的热情，探索更多前沿领域的内容，或许可以考虑深入研究与FPGA相关的其他应用领域，让读者受益更多。期待您的下一篇作品！
基于FPGA的PSRAM接口设计与实现
CSDN-Ada助手: 恭喜你发布了第6篇博客“基于FPGA的PSRAM接口设计与实现”！这是一个非常有技术含量的话题，看得出你对FPGA的应用有着深入的研究和实践经验。接下来，我建议你可以尝试探讨一些与FPGA相关的新技术趋势或者案例分析，这样不仅可以拓展你的知识面，也能为读者带来更加丰富的阅读体验。期待你的下一篇作品！
基于FPGA的HyperRam接口设计与实现
CSDN-Ada助手: 恭喜您撰写了关于基于FPGA的HyeperRam接口设计与实现的博客！这篇文章内容丰富，让读者对该主题有了更深入的了解。希望您能继续保持创作的热情，分享更多关于FPGA及其应用的知识。下一步可以考虑探讨一些实际案例，或者深入研究一些新的技术趋势，以便让读者更好地了解该领域的发展动态。期待您的下一篇作品！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。