CNN中感受野、feature map、参数量、计算量相关知识和计算方法

最新推荐文章于 2023-10-30 20:35:32 发布

黑暗主宰

最新推荐文章于 2023-10-30 20:35:32 发布

阅读量2.1k

点赞数 4

分类专栏：深度学习文章标签：深度学习感受野 flops parameter CNN

本文链接：https://blog.csdn.net/EngineerHe/article/details/98787026

版权

深度学习专栏收录该内容

4 篇文章 1 订阅

订阅专栏

CNN中感受野、feature map、参数量、计算量相关知识和计算方法

感受野的定义：

卷积神经网络输出特征图上的像素点 在原始图像上所能看到区域的大小，输出特征会受感受野区域内的像素点的影响
图像的空间联系是局部的，就像人是通过一个 局部的感受野 去感受外界图像一样，每一个神经元都不需要对全局图像做感受，每个神经元只感受局部的图像区域，然后在更高层，将这些感受不同局部的神经元 综合起来就可以得到全局的信息了

感受野的作用：

小卷积可以代替大卷积层
密集预测task要求输出像素的感受野足够的大，确保做出决策时没有忽略重要信息，一般也是越深越好
一般task要求感受野越大越好，如图像分类中最后卷积层的感受野要大于输入图像，网络深度越深感受野越大性能越好
目标检测task中设置anchor要严格对应感受野，anchor太大或偏离感受野都会严重影响检测性能

感受野的计算方法：

注意：

第一层感受野的大小等于滤波器的大小
感受野的大小和它之前所有层的滤波器大小和步长有关
padding不影响感受野的大小，不考虑padding

从前往后计算，公式如下
$RF_{l+1} = RF_{l} + (kernel\_size_{l+1} - 1)\times feature\_stride_{l}$
其中 $feature\_stride_{l}$ 用如下公式计算，默认 $RF_{0} = 1, feature\_stride_{0}=1$ 。
$feature\_stride_{l} = \prod_{i=1}^{l}stride_{i}$
如果是dilated conv，计算公式为
$RF_{l+1} = RF_{l} + (kernel\_size_{l+1} - 1)\times feature\_stride_{l} \times dilation_{l+1}$

假如输入图片的大小为200*200，经过一层卷积（kernel size 5 * 5, padding 1, stride 2）,pooling(kernel size 3 * 3， padding 0, stride = 1)，又一层卷积（kernel size 3 * 3, padding 1, stride 1）之后，请问输出特征图感受野的大小是多少？

conv1 = 1 + (5-1)*1 = 5, $RF_{0} = 5, feature\_stride_{1}=2$

pooling = 5 + (3-1)*2 = 9, $RF_{1} = 9, feature\_stride_{1}=2$

conv2 = 9 + (3-1)*2 = 13 $RF_{2} = 13$

所以最终感受野的输出大小为13

另一种方法是从top往下层迭代直到追溯到input image，计算公式如下：
$N-1)_{RF} = f(N_{RF}, stride, kernel) = (N_{RF} - 1) * stride + kernel$
其中 $N_{RF}$ 指的是第n层的 feature 在n-1层的RF，默认 $N_{RF}=1$ , $s t r i d e ， k e r n e l$ 分别表示当前层的步长和滤波器大小

当包含dilated conv卷积时，需要重新计算滤波器的大小 $d\_kernel = (dilation-1) \times (kernel-1) + kernel$ ，所以计算公式变为：
$(N-1)_{RF} = f(N_{RF}, stride, kernel) = (N_{RF} - 1) * stride + d\_kernel \\ d\_kernel = (dilation-1) \times (kernel-1) + kernel$
同样的以上面的例子举例：

$2_{RF}$ = (1-1)*1 + 3 = 3

$1_{RF}$ = (3-1)*1 + 3 = 5

$0_{RF}$ = (5-1)*2 + 5 = 13

feature map特征图的计算：
$Hout=⌊ Hin+2×padding[0]−dilation[0]×(kernel_size[0]−1)−1 stride[0] +1⌋ \\ Wout=⌊ Win+2×padding[1]−dilation[1]×(kernel_size[1]−1)−1 stride[1]+1⌋$
当有小数时，卷积操作：向上取整还是向下取整，根据框架而定，如tensorflow采用的是向上取整，pytorch采用的是向下取整；
pooling是统一向上取整；

CNN 模型所需的计算力（flops）和参数（parameters）数量的计算

对于一个卷积层，假设一个图像的输入通道为 $n_{in}$ ，输出通道为 $n_{out}$ ，kernel_size 为 $k_w \times k_h$ ，输出的feature map尺寸为 $f_w \times f_h$ ，则该卷积层的

paras = $n_{out} \times (k_w \times k_h \times n_{in} + 1)$
flops= $f_w \times f_h \times n_{out} \times (k_w \times k_h \times n_{in} + 1)$

乘累加操作

MADD = $f_w \times f_h \times n_{out} \times (k_w \times k_h \times n_{in} + 1)$ + $f_w \times f_h \times n_{out} \times ((k_w \times k_h \times n_{in} - 1） + 1)$

即 MADD = flops + $f_w \times f_h \times n_{out} \times ((k_w \times k_h\times n_{in}-1） + 1)$

深度可分离卷积

paras = $n_{in} \times k_w \times k_h + n_{out} \times (n_{in} \times 1 \times 1 + 1)$
flops = $f_w \times f_h \times n_{in} \times k_w \times k_h + (n_{in} \times 1 \times 1 + 1) \times n_{out} \times f_w \times f_h$

欢迎大家关注我的个人公众号，同样的也是和该博客账号一样，专注分享技术问题，我们一起学习进步
在这里插入图片描述

黑暗主宰

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
CNN中感受野、feature map、参数量、计算量相关知识和计算方法

CNN中感受野、feature map、参数量、计算量相关知识和计算方法感受野的定义：卷积神经网络输出特征图上的像素点在原始图像上所能看到区域的大小，输出特征会受感受野区域内的像素点的影响图像的空间联系是局部的，就像人是通过一个局部的感受野去感受外界图像一样，每一个神经元都不需要对全局图像做感受，每个神经元只感受局部的图像区域，然后在更高层，将这些感受不同局部的神经元综合起来...
复制链接

扫一扫

专栏目录