0 写在前面
在对原文进行了翻译,以及参考了别人的一些博客后,lz打算提炼一下自己对STN的理解,后续有更深入的认识后会不断地增加内容。运用pytorch实现的STN代码可以点这里查看。
1 STN的创新点
单纯的CNN对于图像的transformation(旋转、缩放、大尺度平移)是不具有invariance的。而这篇论文创新性地提出了一种spatial transformer(ST)结构,一定程度上赋予了CNN transformation invariance,算是STN领域的开山之作了,谷歌引用3400+。
2 ST的工作原理
含有ST的CNN叫做STN。ST可以被插入到CNN的任何深度,比如图像输入端,或者是中间的特征层。数量也是没有限制的。
1.U是一个输入图,可以是初始输入图像,也可以是CNN中间特征层。
2.Localisation net(本地网络)是一个神经网络,比如是CNN或全连接层。无论是什么形式,Localisation net最后都会有个回归层,否则无法输出参数 θ \theta θ。工作时,前一步的U被丢到Localisation net中,回归得到参数 θ \theta θ