上图来源Better to follow, follow to better
R w R_w Rw是一个点的感受野,ARF(w)是这个ROI的感受野,D是stride,w是ROI的宽
R w R_w Rw是如何计算的暂且不管,总之我们已经知道一个点的感受野是这么大
问题:为什么 R w ≠ D , A R F ≠ w × D ? R_w\neq{D},ARF\neq{w\times{D}}? Rw=D,ARF=w×D?
因为这不是求点的映射!,求点的映射的时候,缩小了D倍,所以坐标直接乘D映射到原图,这里是感受野,相邻的两个点的感受野是会有重叠的,所以不能直接乘
那么这个公式是怎么来的呢?
我们已知一个点的感受野为
R
w
R_w
Rw
如上图所示,红色框为左边第一个点对应的感受野,宽
R
w
R_w
Rw,右边还有(w-1)个点,每个点的感受野相互重叠,边界相隔D,所以最终的感受野是
R
w
+
(
w
−
1
)
×
D
R_w+(w-1)\times{D}
Rw+(w−1)×D
问题:为什么边界相隔D?
因为这是对应到原图上的感受野,特征图上的相邻点映射回原图,坐标间隔为Stride=D,而每个点的感受野是一样大的,所以感受野的边界也相隔D