深度学习计算框架综述（十三）HVX 计算优化实践—D32 Format浅析

最新推荐文章于 2023-03-30 09:53:48 发布

Kane技术漫谈

最新推荐文章于 2023-03-30 09:53:48 发布

阅读量1.1k

点赞数 1

分类专栏：深度学习计算框架综述文章标签：深度学习

本文链接：https://blog.csdn.net/u012542087/article/details/107284515

版权

深度学习计算框架综述专栏收录该内容

27 篇文章 49 订阅

订阅专栏

运用Hexagon DSP做深度学习计算，D32 Format 是我们要熟练掌握的基础知识，下图是Hexagon NN中采用的D32 Format(和VCAP采用的存在一些差异，请看文末)。

D32 Format 是指Feature Map的排布，D32则是指Feature Map的Channel 32对齐，假设Feature Map的维度是[1，24，120，120](NCHW),那么就需要把24补齐到32，即实际分配的Feature Map为[1，32，120，120]，另外，对于Width，我们通常会保证其大小是4的倍数，这样做的目的是保证Feature Map的大小是128的整数倍。

同时Weight也会按照Feature Map进行重排，从而方便我们通过vmem指令对齐访问Feature Map、Weight，加快访存速度，当然，如果Feature Map的大小不是128的整数倍，则可以用vmemu指令做非对齐访问，配合L2Cache/VTCM的使用以及指令流水，整体的性能和vmem差异不大，读者可以自己实践、验证。

那么，为什么是D32，而不是D16或者D64呢？

这个需要结合Hexagon Vector的特点来分析。我们知道(从V62架构以后)Hexagon Vector的尺寸默认是1024bit，也就是128byte。（1）是矩阵乘法的计算公式，虽然INPUT和WEIGHT都是INT8，但是乘加运算可能会溢出，所以我们会用INT32的累加器来存储计算结果，而Hexagon Vector刚好可以存储32个INT32的值，这就是为什么我们采用D32，而不是D16、D64。那么如果Hexagon Vector的尺寸是64byte或者256byte呢？这个时候，D16、D64就是更好的选择。

acc32 = ∑(input - input_offset) * （filt - filt_offset) + bias32 （1）

为什么是D32，而不是W32、H32呢？

以Conv3x3S1为例，如果我们要同时计算W方向的32个结果，INPUT和OUTPUT的数据排布很难保持统一，而H32，对于寄存器的使用来说简直是个灾难，你需要同时访问32行INPUT，而标量寄存器总共只有32个R0-R31。

在实际的场景中，是不是一定要保证每一个Operator的输入、输出Feature Map都采用D32 Format呢？

确切地说，不是的。例如，在VCAP Hexagon中，对于图像输入（通常是3通道），如果将其补充到32通道，会导致内存增大，并且会增加10倍的计算量。我们的做法是，将通道数小于等于4的DataInput节点，补齐到4，例如[1, 3, 224, 224] →[1, 4, 224, 224]，在Conv 优化实践这一节，我们会详细分析实现方案。此外，对于Fully Connected节点，我们没有对Width做4对齐，这样可以避免多余的访存，提升计算效率。

注：我们使用的D32 Format和Hexagon NN存在些微的差异，差异主要在对padding的处理上，VCAP Hexagon 在Height方向不会做padding，Width方向，只会在右侧补齐，确保Width是4的整数倍，减少了内存占用，同时我们大量地使用了Intermediate Buffer，可以有效地提升访存效率，加速计算。

Kane技术漫谈

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
深度学习计算框架综述（十三）HVX 计算优化实践—D32 Format浅析

运用Hexagon DSP做深度学习计算，D32 Format 是我们要熟练掌握的基础知识，下图是Hexagon NN中采用的D32 Format(和VCAP采用的存在一些差异，请看文末)。D32 Format是指Feature Map的排布，D32则是指Feature Map的Channel 32对齐，假设Feature Map的维度是[1，24，120，120](NCHW),那么就需要把24补齐到32，即实际分配的Feature Map为[1，32，120，120]，另外，对于Width，我们.
复制链接

扫一扫

专栏目录