感受野以及它对图像特征提取的影响

最新推荐文章于 2024-07-04 23:59:17 发布

是依韵阿

最新推荐文章于 2024-07-04 23:59:17 发布

阅读量1.7k

点赞数 3

文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_39377134/article/details/100712253

版权

最近看论文被导师问论文的cnn模型的设计思路问住我了，今天突然好想理解了一点东西，记录一下。

一，什么是感受野

感受野是一个神经元对原始图像的连接
通常说：第几层对输入数据（即原始图像）的感受野
这是我见过最通俗的语言叙述了，下面通过图片来理解
###1，第一次卷积运算
原始图像的大小为10x10， 5个网络层， 4个是卷积层，卷积核的大小为33，最后一个是池化层，大小为22
步长为1
下面看图：

在这里插入图片描述
从上面可以看出：第一层网络输出的图像中，输出结果为8x8，output1输出的每一个特征（即每一个像素）受到原始图像的3x3区域内的影响，故而第一层的感受野为3，用字母表示为

                      RF1=3   （每一个像素值与原始图像的3x3区域有关）

2、第二次卷积运算
在这里插入图片描述
从上图可以看出，经历两次卷积运算之后，最终的输出图像为6x6，output2输出的每一个特征（即每一个像素）受到output1的范围影响为3x3，而output1中的这个3x3又收到原始图像的5x5的范围的影响，故而第二层的感受野为5，即

                              RF2=5   （每一个像素值与原始图像的5x5区域有关）

3、第三次卷积运算
在这里插入图片描述
从上图可以看出，经历三次卷积运算之后，最终的输出图像为4x4，output3输出的每一个特征（即每一个像素）受到output2的范围影响为3x3，而output2中的这个3x3又受到output1的5x5的范围的影响，而output1中的这个5x5又受到原始图像的7x7的范围的影响，故而第三层的感受野为7，即

                       RF3=7   （每一个像素值与原始图像的7x7区域有关）

4、第四次卷积运算
在这里插入图片描述
从上图可以看出，经历四次卷积运算之后，最终的输出图像为2x2，output4输出的每一个特征（即每一个像素）受到output3的范围影响为3x3，而output3中的这个3x3又受到output2的5x5的范围的影响，而output2中的这个5x5又受到output1的7x7的范围的影响，而output1中的这个7x7又受到原始图形的9x9的范围的影响，故而第四层的感受野为9，即

                       RF4=9   （每一个像素值与原始图像的9x9区域有关）

5、第五次池化运算
在这里插入图片描述
从上图可以看出，经历四次卷积运算和一次池化运算之后，最终的输出图像为1x1，output5输出的每一个特征（即每一个像素）受到output4的范围影响为2x2，而output4中的这个2x2又受到output3的4x4的范围的影响，而output3中的这个4x4又受到output2的6x6的范围的影响，而output2中的这个6x6受到output1的8x8的范围的影响，而output1中的这个8x8受到原始图像的10x10的范围的影响，故而第五层的感受野为10，即

                       RF5=10  （每一个像素值与原始图像的10x10区域有关）

二、递推公式推导
从上面的过程可以看出，感受野的推导是一个递推的过程，下面将展示这一过程。

RF1=3 具体解释：k1（第一层的感受野，永远等于第一个卷积核的尺寸大小）k表示第几个卷积层

RF2=5 具体解释： k1 + (k2-1) --------------------- RF1+ (k2-1)

RF3=7 具体解释： k1 + (k2-1) + （k3-1) -------------------- RF2+ (k3-1)

RF4=9 具体解释： k1 + (k2-1) + （k3-1) + (k4-1) ------------- RF3+ (k4-1)

RF4=10 具体解释： k1 + (k2-1) + （k3-1) + (k4-1) + (k5-1) ----------------------- RF4+ (k5-1)

总结：从上面可以看出，感受野的大小的求解是一个不断第一的过程，因为第一层的每一个像素的感受野始终是第一个卷积核的大小，故而RF1总是最先确定，然后以此类推，逐步求出RF2、RF3、RF4、RF5……
但是上面的所有步长均为 1 ，如果每一次卷积运算的步长 stride 不为1呢，同理，这里直接给出递推公式：

RFn=RFn-1 + (kn-1)*stride_n
其中stride_n表示的是第n次卷积的移动步幅stride。

求解过程是从RF1开始的。

二，感受野对于特征提取的作用

假若有一个7层的 CNN网络：将整张图片上采样成像素为1的点，看图：
在这里插入图片描述
最后这个像素点能代表什么？
答案是最低维度的全局特征，这里人眼已经不可见，但对于计算机来说，这里能表示的是原图像中的整个轮廓。试想一下，这是全图映射过来，它的感受野有整张原图那么大。所以它代表的是整张图片的轮廓。放在信号上，他代表的是低通滤波后的信号。

再假设有一个两层的cnn网络，不进行上下采样，看图：
在这里插入图片描述
它的结果代表什么？像上面一样，但是这里的感受野只有5x5！！！说明什么，它得到的结果是5x5大小的范围内的图像特征，也就是图像的细节，为什么要用256的维度呢，我猜细节的信息比较多，哈哈。它就是代表图像信号的高峰部分，急剧变化的部分