深度学习计算框架综述(十三)HVX 计算优化实践—D32 Format浅析

运用Hexagon DSP做深度学习计算,D32 Format 是我们要熟练掌握的基础知识,下图是Hexagon NN中采用的D32 Format(和VCAP采用的存在一些差异,请看文末)。

D32 Format 是指Feature Map的排布,D32则是指Feature Map的Channel 32对齐,假设Feature Map的维度是[1,24,120,120](NCHW),那么就需要把24补齐到32,即实际分配的Feature Map为[1,32,120,120],另外,对于Width,我们通常会保证其大小是4的倍数,这样做的目的是保证Feature Map的大小是128的整数倍。

同时Weight也会按照Feature Map进行重排,从而方便我们通过vmem指令对齐访问Feature Map、Weight,加快访存速度,当然,如果Feature Map的大小不是128的整数倍,则可以用vmemu指令做非对齐访问,配合L2Cache/VTCM的使用以及指令流水,整体的性能和vmem差异不大,读者可以自己实践、验证。

那么,为什么是D32,而不是D16或者D64呢?

这个需要结合Hexagon Vector的特点来分析。我们知道(从V62架构以后)Hexagon Vector的尺寸默认是1024bit,也就是128byte。(1)是矩阵乘法的计算公式,虽然INPUTWEIGHT都是INT8,但是乘加运算可能会溢出,所以我们会用INT32的累加器来存储计算结果,而Hexagon Vector刚好可以存储32个INT32的值,这就是为什么我们采用D32,而不是D16、D64。那么如果Hexagon Vector的尺寸是64byte或者256byte呢?这个时候,D16、D64就是更好的选择。

acc32 = ∑(input - input_offset) * (filt - filt_offset) + bias32                                                                           (1)

为什么是D32,而不是W32、H32呢?

以Conv3x3S1为例,如果我们要同时计算W方向的32个结果,INPUTOUTPUT的数据排布很难保持统一,而H32,对于寄存器的使用来说简直是个灾难,你需要同时访问32行INPUT,而标量寄存器总共只有32个R0-R31。

在实际的场景中,是不是一定要保证每一个Operator的输入、输出Feature Map都采用D32 Format呢?

确切地说,不是的。例如,在VCAP Hexagon中,对于图像输入(通常是3通道),如果将其补充到32通道,会导致内存增大,并且会增加10倍的计算量。我们的做法是,将通道数小于等于4的DataInput节点,补齐到4,例如[1, 3, 224, 224] →[1, 4, 224, 224],在Conv 优化实践这一节,我们会详细分析实现方案。此外,对于Fully Connected节点,我们没有对Width做4对齐,这样可以避免多余的访存,提升计算效率。

注:我们使用的D32 Format和Hexagon NN存在些微的差异,差异主要在对padding的处理上,VCAP Hexagon 在Height方向不会做padding,Width方向,只会在右侧补齐,确保Width是4的整数倍,减少了内存占用,同时我们大量地使用了Intermediate Buffer,可以有效地提升访存效率,加速计算。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值