手撕 | 深度神经网络卷积层计算加速与优化

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

阅读本文大概需要 6 min 左右

传统卷积层计算

01

首先我们定义符号F()函数为卷积函数

一维卷积:F(n,m)

n代表输出的维度,m代表滤波器的维度

二维卷积:F(n*m,r*s)

n*m代表输出的维度,r*s代表滤波器的维度

下面我们具体谈谈针对二维的卷积加速

传统的卷积层加速:

a8fc17cf95465ebcd23abf1dfe2219b3.jpeg

 对于最简单的F(n*m,r*s)

最传统暴力的卷积运算:

时间成本:
1. 乘法:(n*m*r*s)
2. 加法:(n*m*(r – 1)*(s – 1))
空间成本:
1. 输入层:(n+r-1)*(m + s - 1)
2. 卷积核:(r*s)

Imcol+GEMM

02

为了更好的理解,首先给出这幅图:

df55cb5abd5a72a0a663ba83a266aac0.png

推广到三维,也就是Image:C*H*W

fbd8d75b408a4ab8dc112d990d3b82c4.png

750f4b80f45cb10e4dc1fccc8712dd97.png

最后一页没画,但是基本上就是Filter Matrix乘以Feature Matrix的转置,得到输出矩阵Cout x (H x W),就可以解释为输出的三维Blob(Cout x H x W)。

相对于传统的暴力的卷积算法而言,此算法将卷积变成了矩阵乘法,为加速提供了便捷条件,能很容易用硬件实现加速。但是内存有冗余。

Imcol+MEC初级版

03

efd3597a56289f73ddc89a805250ad85.jpeg

由于是3x3卷积核,且步长为1。因此,循环取出A、B、C、D、E这5个子矩阵,每个矩阵的维度都是: 输入高度x3

将A、B、C、D、E按照行优先展开并拼成一个大的中间矩阵L, L的维度则为:5x21。从L中循环取出P、Q、R、S、T这5个子矩阵,并计算5次矩阵乘法,就得到了最终的结果。从上面的示例中我们不难看出,MEC的解决思路在于将im2col这一过程分成了Height和Width两部分,于是需要存储的中间矩阵也大大减小了。可能带来的问题就是,原来的一次矩阵乘法,现在会变成多次小矩阵乘法。虽然有利于并行计算,但也失去了BLAS库计算大矩阵乘法的优势。

F( n*m,r*s)
原本内存:( n+r – 1) *( m+s – 1)
Imcol+GEMM转换需要内存大小:r * s * n * m
Imcol+MEC初版需要内存大小:m * ( r * ( n + s – 1 ) )

Imcol+MEC高级版

04

考虑了batchsize和channel

5cfde804565a2a9033a59034002c842b.jpeg

Winograd方法

05

说完了这些方法,我们来说说Winograd方法吧,加速卷积的不二之选。本文重在于利用Winograd方法加速卷积,顺便选取内存和速度兼顾的方案

公式的推导,这里选用F( 3 *3,2*2)

用多项式的中国剩余定理推导可知:

c5905b8e9922ab5ab535db468468349f.png

b7f293c6221cd1fb8e1119694acaa55e.png

097468c762f2877a5e5e10b63bc6096c.png

b8209354c996fbb3399ca4cae975a04d.png

在其中,我用的是F( 4 * 4 , 3 * 3 )

输入的tensor:[N,W,H,C]

卷积核的tensor:[C_out,kernal_W,kernel_H,C_in]


0b3fb4406647bc7345f3886b9027d4be.png

图中K = C_out、T = N

Kernals中的众矩阵通过从[C_out,3,3,C] -> [C_out,6,6,C]

f7cc3d9d547269e9c476b6cf76840abc.jpeg

bb3704e05cdf69ba1972683e81d2fb5b.png

是一个变形后的卷积核,kernal1 = [1,6,6,128],上图中有128个卷积核,因为输出的Tensor:[N,W,H,128],抛开上面具体的实例,为了推导后续公式,这里我们只研究

对于输入矩阵16X16、卷积核 3X3,采用 F( 4 X 4,3X3 ) 的加速方案:

明确输出矩阵14 X 14 首先将卷积核通过GgG(T)变成 6X6的矩阵D

9feff63e4cafb4159038766d949b94b9.png

30027b801dee2ba1229a23e71d784ae3.png

现在的问题变成了如何将点乘的集合变成更简易可表达的形式。再看下面这幅图:


a0e490b0fd8f1288ee268dde1d5a3a73.png

99a6b0227ad2cceab1f7852241150cd7.png

038eb5cff492fa84a4f8c2855ee6cb38.png


故我们得到的最后的结果是:

所以最后我们统计一下所作的乘法:

传统:3 X 3 X 128 X 14 X 14 = 225792
Winograd:6 X 6 X 128 X 16 = 73728
浮点数运算倍数:225792 / 73728 = 3.0625

改进:如若有剩余,考虑用其他矩阵相乘方法

 
 

好消息!

小白学视觉知识星球

开始面向外开放啦👇👇👇

 
 

675ba6e5a230cf8afba1fe4476532984.jpeg

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。


下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
经典卷积神经网络是指使用numpy纯写的卷积神经网络代码,该代码可以帮助理解卷积神经网络的原理。它不使用任何神经网络框架,适合那些有意愿深入理解卷积神经网络底层的人群。这个的代码相对简单,但是通过研究它,可以充分理解卷积神经网络的工作原理。 卷积神经网络(CNN)是一种常用于图像处理和识别的深度学习模型。它通过卷积层、池化层和全连接层等组成,实现了对图像特征的提取和分类。在卷积神经网络中,卷积层通过滤波器(卷积核)对输入图像进行卷积操作,以提取图像的局部特征。池化层则通过降采样的方式,减少特征图的尺寸,同时保留重要的特征信息。全连接层将特征图转化为一维向量,并通过神经网络计算得出最终的分类结果。 通过经典卷积神经网络的代码,我们可以更加深入地了解卷积神经网络计算过程。该代码中的全连接层实际上就是指上述提到的全连接神经网络,它将最后一次卷积操作的输出作为输入,并通过神经网络计算产生最终的输出结果。 总之,经典卷积神经网络可以帮助我们更好地理解卷积神经网络的原理和计算过程。通过研究这个代码,我们可以深入了解卷积操作、池化操作和全连接操作在卷积神经网络中的应用,从而更好地应用和设计卷积神经网络模型。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值