简述
2015 NIPS(NeurIPS,神经信息处理系统大会,人工智能领域的 A 类会议)论文
Google DeepMind 出品的论文(Alpha Go 东家),STN(Spatial Transformer Network)网络可以作为一个模块嵌入任何的网络,它有助于选择目标合适的区域并进行尺度变换,可以简化分类的流程并且提升分类的精度。
CNN 虽然具有一定的不变性,如平移不变性,但是其可能不具备某些不变性,比如:缩放不变性、旋转不变性。某些 CNN 网络学会对不同尺度的图像进行识别,那是因为训练的图像中就包含了不同尺度的图像,而不是 CNN 具有缩放不变性。
研究者认为,既然某些网络可能隐式的方式学会了某些变换,如缩放、平移等,那为什么不直接通过显式的方式让网络学会变换呢?所以学者们提出了 STN 网络来帮助网络学会对图像进行变换,帮助提升网络的性能。
空间变换知识
该论文主要涉及三种变换,分别是仿射变换、投影变换、薄板样条变换(Thin Plate Spline Transform)。
仿射变换
仿射变换,又称仿射映射,是指在几何中,对一个向量空间进行一次线性变换并接上一个平移,变换为另一个向量空间。
变换的公式是
变换的方式包括 Translate(平移)、Scale(缩放)、Rotate(旋转)、Shear(裁剪)等方式,将公式中的矩阵 A 和向量 b 更换成下面的数,就可以进行对应方式的变换。
投影变换</