[CVPR 17 oral] Inverse Compositional Spatial Transformer Networks
Chen-Hsuan Lin and Simon Lucey
from CMU
Intuition
这篇文章是针对Spatial Transformer Network进一步改进的工作。从研究领域来看,该工作是对增强深度网络之于输入图片空间不变性的研究。作者首先对这一领域的工作进行了简单的总结和分类。前人工作可大致分为两类:
- 一类是传统的通过训练数据扩展和在网络中使用max pooling等操作让网络容忍输入图片的空间变化;
- 第二种则是使用参数方法改变网络结构,消除数据的空间变化。STN是第一个使用较小计算代价来实现这一功能的尝试。
这篇文章提出的模型仍然遵循了STN的大致思路:通过网络预测得到一组与当前数据相关的仿射变换的参数,并使用这些参数对数据/特征进行形变操作,从而消除输入图像中物体各种各样的空间变化。
与STN相比,这篇文章提出的IC-STN模型有两点主要改进:
- 预测参数时借鉴了Inverse Compositional算法(Lucas & Kanade算法的变种)的思想,并不像STN一样通过侧支网络直接回归变换参数;
- IC-STN模型仅在网络最后的特征上进行形变操作,而STN则是在网络之中进行多步的形变操作。STN的做法会导致一种边缘效应(boundary effect)。
Method
1. IC-STN
在介绍网络结构之前,需要简单介绍下Lucas & Kanade(LK)算法和Inverse Compositional算法。LK算法是已经集成到OpenCV中的经典算法,目前有很多博客详细介绍了算法的计算过程。这里仅作概念和思路的介绍。LK算法是一个基于优化的算法,其的过程是将原图片 I 进行基于可学习参数
minΔp||I(p+Δp)−T(0)||22