Spatial Transformer Networks 论文笔记
简介
- Spatial Transformer Networks和BN一样相当于一个小插件,放在卷积网络中,其主要目的是对齐网络的每个输入。比如MNIST的手写数字识别,如果有一个图像中的数字有一定角度倾斜或偏移,Spatial Transformer可以对输入图像进行仿射变换,让CNN真正的输入变成对齐后的数字图像。
网络
- 网络结构如Figure2所示。比如一开始某层CNN是以U作为输入的话,添加一个Spatial Transformer,该层的输入就变成V了。Spatial Transformer由Localisation Network、grid generator和sampler三个部分组成。
- Localisation Network以特征图U为输入,输出一组参数