深度学习之学习（1-2）感受野(receptive field)

最新推荐文章于 2025-02-27 21:15:51 发布

light169

最新推荐文章于 2025-02-27 21:15:51 发布

阅读量2k

点赞数

分类专栏：深度学习文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/light169/article/details/123275675

版权

深度学习专栏收录该内容

39 篇文章

订阅专栏

参见：原始图片中的ROI如何映射到到feature map? - 知乎

1 感受野的概念

　　在卷积神经网络中，感受野的定义是卷积神经网络每一层输出的特征图（feature map）上的像素点在原始图像上映射的区域大小。

2、感受野的计算

感受野计算时有下面的几个情况需要说明：

　　（1）第一层卷积层的输出特征图像素的感受野的大小等于滤波器的大小

　　（2）深层卷积层的感受野大小和它之前所有层的滤波器大小和步长有关系

　　（3）计算感受野大小时，忽略了图像边缘的影响，即不考虑padding的大小，关于这个疑惑大家可以阅读一下参考文章2 machine learning - Receptive Fields on ConvNets (Receptive Field size confusion) - Stack Overflowhttp://stackoverflow.com/questions/37136829/receptive-fields-on-convnets-receptive-field-size-confusion/37143998#37143998　的解答进行理解

这里的每一个卷积层还有一个strides的概念，这个strides是之前所有层stride的乘积。

　　即strides（i） = stride(1) * stride(2) * ...* stride(i-1)

　　关于感受野大小的计算采用top to down的方式，即先计算最深层在前一层上的感受野，然后逐渐传递到第一层，使用的公式可以表示如下：　　　

　　 RF = 1 #待计算的feature map上的感受野大小
　　for layer in （top layer To down layer）:
　　　　RF = ((RF -1)* stride) + fsize

stride 表示卷积的步长； fsize表示卷积层滤波器的大小　　

在文【卷积神经网络(CNN)简介 - 知乎】

隐藏层边长（输出的边长） = （W - K + 2P）/S + 1

（其中 W是输入特征的大小，K是卷积核大小，P是填充大小，S是步长（stride））

即 output field size = ( input field size - kernel size + 2*padding ) / stride + 1

(output field size 是卷积层的输出，input field size 是卷积层的输入)

反过来问你：卷积层的输入大小（也即前一层的感受野） = ？

答案必然是： input field size = （output field size - 1）* stride - 2*padding + kernel size

再重申一下：卷积神经网络CNN中，某一层输出结果中一个元素所对应的输入层的区域大小，被称作感受野receptive field。感受野的大小是由kernel size，stride，padding , outputsize 一起决定的。

比如我们第一层是一个3*3的卷积核，那么我们经过这个卷积核得到的featuremap中的每个节点都源自这个3*3的卷积核与原图像中3*3的区域做卷积，那么我们就称这个featuremap的节点感受野大小为3*3

如果再经过pooling层，假定卷积层的stride是1，pooling层大小2*2，stride是2，那么pooling层节点的感受野就是4*4

有几点需要注意的是，padding并不影响感受野，stride只影响下一层featuremap的感受野，size影响的是该层的感受野。

至于如何计算感受野，我的建议是top to down的方式。下面我拿一个例子来算算

pool3的一个输出对应pool3的输入大小为2*2

依次类推，对应conv4的输入为4*4，因为2*2的每个角加一个3*3的卷积核，就成了4*4，当然这是在stride=1的情况下才成立的，但是一般都是stride=1，不然也不合理

对应conv3的输入为6*6

对应pool2的输入为12*12

对应conv2的输入为14*14

对应pool1的输入为28*28

对应conv1的输入为30*30

所以pool3的感受野大小就是30*30

对于Convolution/Pooling layer

其中

r_i表示第i层layer的输入的某个区域，

s_i表示第i层layer的步长，

k_i表示kernel size，注意，不需要考虑padding size。

对于 Neuronlayer(ReLU/Sigmoid/..)

参见【深度】Deep Visualization:可视化并理解CNN - 云+社区 - 腾讯云

计算公式：

对于 Convolution/Pooling layer:
对于Neuronlayer(ReLU/Sigmoid/..) :

上面是计算任意一个layer输入输出的坐标映射关系，如果是计算任意feature map之间的关系，只需要用简单的组合就可以得到，下图是一个简单的例子：

3、SPP-net 的ROI映射

SPP-net 是把原始ROI的左上角和右下角映射到 feature map上的两个对应点。有了feature map上的两队角点就确定了对应的 feature map 区域(下图中橙色)。

如何映射？

左上角的点（x,y）映射到 feature map上的 $(x',y')$ ：使得 $(x',y')$ 在原始图上感受野（上图绿色框）的中心点与（x,y）尽可能接近。

对应点之间的映射公式是啥？

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。