极简笔记 DeepID-Net: Object Detection with Deformable Part Based Convolutional Neural Networks
论文地址 http://www.ee.cuhk.edu.hk/~xgwang/papers/ouyangZWpami16.pdf
这是CUHK王晓刚组2017年的一篇TPAMI,最早发在CVPR2015,增加实验之后投到的期刊,所以对比实验都是些AlexNet,GoogLeNet等早期网络模型,faster-rcnn也还没有出现。选读这篇文章是因为想看看Deformable Part Method(DPM)如何和CNN结合。
文章核心贡献:1. 新的目标检测的网络架构;2. 修改了pretrain的设置,提升了性能;3. 把DPM和CNN结合起来的def-pooling layer取代max-pooling layer。pipeline见图
作者认为在做检测时候,单单对框框中的物体进行分类会有困难,比如只框出一个小小的排球,可能会和游泳运动员戴在头上的泳帽的纹理搞混。此时需要整张图的全局信息,当发现排球在排球场上,泳帽出现在泳池里,这时检测分类会更加准确,而不会因为局部纹理而被误导。
很多检测网络都是现在分类任务上pretrain的,文章认为这两个任务有很大不同k,分类任务需要对位置尺度不敏感,而检测任务对位置尺度敏感,因此不能直接生搬硬套。文章使用ImageNet cls-loc的1000类数据进行了pretrain,之后再在200类检测数据集上进行fine-tuning,获得更好效果。
文章认为CNN中间层每个channel,实际就是物体某个部件的响应图。这个HOG+DPM的流程非常类似,所以作者将DPM的思想加入CNN中,提出用于DPM计算的def-pooling layer。记第c个通道的feature map为 Mc M c ,它的第 (i,j) ( i , j ) 个像素为 M(i,j)c M c ( i , j ) ,响应值为 m(x,y)c m c ( x , y ) 。记anchor中心坐标为 (x,y) ( x , y ) ,anchor上像素的偏移为 (δx,δy) ( δ x , δ y ) ,偏移像素点的绝对坐标为 zδx,δy=(x