介绍一篇微软用STN做人脸检测的工作。Supervised Transformer Network for Efficient Face Detection;Dong Chen, Gang Hua, Fang Wen, and Jian Sun
Motivation:
前面介绍过了STN(spatial transformer network)做识别任务的工作,在人脸这个问题上利用landmark对齐是一个传统的标准做法,旋转平移变换到一个标准脸上再进 行后续的识别。那么在检测里面预测都会输出一个分类的概率来表示当前这个框选物体是否为目标物体,即是不是一个误检,如果没有做对齐的话因为姿态、表情等变化可能会导致这个分类问题变难。在我们实际做的时候也是会基于landmark的信息来单独训练分类器去实现误检判断的,这里基于STN的思想,作者提出了让网络自己学习对齐方法,在faster rcnn的框架下提升检测的效果。除了STN之外,作者还研究了ROI convolution对结果的影响,也是十分直观合理的做法。
基本原理:
直接上图,基于RPN和RCNN的two-stage网络结构,在RPN之后加入一个landmark回归器,使RPN成为一个多任务RPN,并在landmark的后面接一个transformer network(TN),这个TN的参数用相似变换来举例就是