1. 首先要知道CNN具有平移不变性
这是为什么呢?可以回忆一下CNN都做了什么,第一就是卷积,第二就是maxpool。
当图像的某一个特征从左上角移动到右下角了,那我们CNN会不会受到影响呢?
因为我们卷积是整个图像都扫一遍,所以无论特征在哪里,我们的卷积核都会扫一遍,所以特征都会被采样到。
接着是maxpool,maxpool的作用就是将感受野里面的最大值给拿出来,其实也是卷积的作用,只不过是规则不同了,所以只要特征在上面卷积保留下来了,在maxpool这里也会被输出的。
所以不管特征在哪里,CNN都是把它给挖出来!
2. STN的结构
Localisation net
把原图作为输入,过连续若干层计算(如卷积、FC等),回归出参数,θ的维度取决于网络选择的具体变换类型,如选择仿射变换则。如选择投影变换则 。θ的值决定了网络选择的空间变换的”幅度大小”
Grid generator:
放一下,后面更新