本来是要看这篇paper的:Supervised Transformer Network for Efficient Face Detection. Dong Chen, Gang Hua, Fang Wen, and Jian SunMicrosoft Research
这是一篇2016年做人脸检测的工作,主要的idea是通过一个transform net来把人脸对齐的过程变成end-to-end,隐式的来做。其先导工作为
Spatial Transformer Networks. Max Jaderberg Karen Simonyan Andrew Zisserman Koray KavukcuogluGoogle DeepMind, London, UK。也是利用spatial transformer network来解决pose、distortion、rotation比较大的这类识别任务,比如ocr、finegrind等。
所以花了些时间先来看了Spatial Transformer Networks.这个工作,还是个相当漂亮的工作。大部分计算机视觉任务都有个绕不开的问题就是形变,拍摄的角度、物体本身的形变都会导致检测、识别变得更加困难。传统的方法一般是定义一些关键点,然后根据关键点和标准物体图像的对应关系来做形变的矫正。那么end2end大法被验证是更优的方案之后,已经有很多传统方法被加入网络结构中成为深度学习中的一层,比如conv/pooling/normalize/embedding之类的。所以作者提出了一个很好的idea,做形变矫正这件事情也可以作为网络的一个层来表示,也就是这样: