感受野的理解
今天看何恺明的faster rcnn的论文中说“由于卷积层输出的特征图感受野比较大,所以采用3X3的sliding window”
感受野的定义
卷积神经网络每一层输出的特征图(feature map)上的像素点在原始图像上映射的区域大小
感受野的计算
对于CNN,可以采用从深层到浅层逐层计算的方法
对于一个
n
n
层网络,考虑它的第层(
i=1,...,n
i
=
1
,
.
.
.
,
n
),它是在第
i−1
i
−
1
层的基础上通过大小为
fi
f
i
的卷积核,以及
si
s
i
的stride卷积得到(不考虑padding)
则第
i
i
层的每个像素点对应
第层的
RFi,i−1=fi
R
F
i
,
i
−
1
=
f
i
个像素点
第
i−2
i
−
2
层的
RFi,i−2=fi−1+(RFi,i−1−1)×si−1
R
F
i
,
i
−
2
=
f
i
−
1
+
(
R
F
i
,
i
−
1
−
1
)
×
s
i
−
1
个像素点
第
i−3
i
−
3
层的
RFi,i−3=fi−2+(RFi,i−2−1)×si−2
R
F
i
,
i
−
3
=
f
i
−
2
+
(
R
F
i
,
i
−
2
−
1
)
×
s
i
−
2
个像素点
…
第0层的
RFi=f1+(RFi,1−1)×s0
R
F
i
=
f
1
+
(
R
F
i
,
1
−
1
)
×
s
0
个像素点
第0层代表原始图像