写这篇文章的初衷是自己需要计算感受野,但是在今天之前只对感受野有感性认识,并不知道如何定量计算。所以在网上搜关键词“感受野”、“Receptive field”,看了一下午,发现一些博客,或者是知乎文章给出的感受野计算公式不一样,也没有把公式的推导过程写出来。遂写此文章,推导计算Receptive Field的过程以及解释如何计算Receptive Field。
一、直观的了解 Receptive field (RF)
Receptive field 是啥?看看网上的大佬们怎么说。
The receptive field is defined as the region in the input space that a particular CNN’s feature is looking at (i.e. be affected by). —— Dang Ha The Hien
在卷积神经网络中,感受野的定义是 卷积神经网络每一层输出的特征图(feature map)上的像素点在 原始图像上映射的区域大小。 ——博客园
在机器视觉领域的深度神经网络中有一个概念叫做感受野,用来表示网络内部的不同位置的神经元对 原图像的感受范围的大小。 ——蓝荣祎
之所以列这么多感受野的定义,是想表明感受野的定义虽多,但大都是一个意思。通俗的说,感受野就是输入图像对这一层输出的神经元的影响有多大。形象的说,就是你的曾曾曾曾曾爷爷对他的后代们有多少影响这么一个概念。所以影响大不一定好,也许会带来用不着的糟粕。影响小也会阻碍后代学习传统知识。好了,扯回来,今天不讨论利弊,就讨论如何正确的计算感受野(RF)。
在学习计算感受野之前,先可视化一下感受野吧。举一个例子,原始图像为
如图所示,第一层卷积结束后,感受野是3*3。在第二层卷积结束了,感受野是7*7
二、如何计算RF
公式一:这个算法从top往下层层迭代直到追溯回input image,从而计算出RF。
(N-1)_RF = f(N_RF, stride, kernel) = (N_RF - 1) * stride + kernel
其中,RF是感受野。N_RF和RF有点像,N代表 neighbour,指的是第n层的 a feature在n-1层的RF,记住N_RF只是一个中间变量,不要和RF混淆。 stride是步长,ksize是卷积核大小。
我来解释一下这个公式。(图片有点丑,不过不影响理解。)首先,我们的问题是右一的红叉叉映射到左一中,应该是什么size?自然思路就是右一的红叉叉映射到中间是什么size?因为卷积核是3*3,所以右一的红叉叉映射到中间是3*3. 那么接下来我们如果算出来中间3*3的红框框映射到左一是什么size,不就解决了我们的问题嘛。聪明的我们就发现了从中间映射到左边的size是kernel_size+stride*(3-1). 抽象一下就是kernel_size +stride*(N_RF-1)嘛。接下来就很简单了,一层又一层的迭代下去直到迭代到第一层,就求出了RF。Note: kernel_size和stride是左一的,而N_RF是中间的。
举一个小小的例子:
一个输入随意,第一层卷积核参数为ksize = 3, stride = 2,第二层ksize =3,stride=2,第三层ksize=3,stride=1.写一段代码计算RF,matlab代码如下:
ksize = 3;
strides = [1 2 2];
N_RF = 1;
for i = 1:3
N_RF = (N_RF -1)*strides(i) + ksize;
end
fprintf('The RF is: %d n',N_RF)
结果:15
公式二有时间再写。
三、检验你的RF
看到这里的,奖励你认真好学,送福利了。不知道自己RF算得对不对?看下面这个网站。
FOMORO AI
三个高级工程师搞的网站,可以简单的输入网络参数,就直接把你的感受野计算出来。界面如下。PS: 话说老外把科研成果转化成产品的能力简直不要太强,产品不要太大方,太漂亮。学习学习。