[文献阅读]A Convolutional Neural Network Cascade for Face Detection

  参考资料:http://blog.csdn.net/shuzfan/article/details/50358809#comments

  本文仅作为文献阅读补充说明之用,因此公式和图标一概没放。

  先说说本文的几个关键词,CNN,级联,较低的计算量,多尺度。文章指出了当前人脸检测问题的几个难点,一是如何在多变的条件下检测出人脸,一个是如何提高计算能力以应对庞大的搜索空间。文章通过观察boosted cascade框架类算法得出了这样的结论:采用更先进的特征量能够提高检测精确度(所以采用了CNN作为检测单元吧),而早期快速拒绝掉大量非人脸窗口能够保证速度。这就是本文的基本论点。

(说到这里插一句,JDA算法中特征点定位采用的特征量就是那个LBF,而检测采用的特征量是随机两个特征附件点的像素差,关于这个特征量的物理意义及为何有效怎么去理解,现在还不是很明朗。)

一、网络结构

  先说总体的网络结构吧,总共是6个CNN,3个做分类用,3个做BBox校准用。整体的结构就是,第一个CNN先拒掉大多数非脸窗,然后对窗口做一下校准,然后NMS抑制一下,这一个阶段就over了,开始第二个阶段,和第一个阶段是类似的。

  下面具体介绍结构。第一个CNN称为12-net,采用的是滑窗的方法生成候选区域,(这点和JDA程序的实现是一致的,JDA在test时,也是步进窗口,然后对每一个窗口进行验证),窗口大小为12,步长为4,实际上的CNN为单层结构,一个conv,一个pooling,一个fc,conv的kernal大小为3*3,个数16。实际使用时要生成图片金字塔,如果某层图像的人脸大小为F(也即检测尺度为F),则对图像按照12/F进行resize,然后再输入到12-net。此处没有给出具体的金字塔层数及检测尺度。

(文章号称对800*600的图像进行12-net计算仅需要36ms,对此略表示怀疑。因为我用caffe跑一张VGA图像,conv1的用时都要远远超过这个。)

按照文章的逻辑,多尺度的特性在于,他会把12-net的特征量和24-net的特征量接在一起,能够提高精度。

  12-校准网络设定了几个级别的尺度缩放和xy偏移量,总共有45种组合,因此实际上是将其由回归问题转化为了一个分类问题。网络输出的是各种模式的score,设定一个门限t,大于t的score对应的偏移量全部累加,作为最终的输出结果。个人认为,这里如果是用加权累加而不是直接相加更合理,至于效果,有可能并无必要,这个有待实验证实。

  24-net的一个特点是,分类时不仅使用了本层输出的特征向量,还将12-net的特征向量串联起来,一并输入分类器,文章说这样做的好处是对于检测小脸有帮助。

  48-net更加复杂,其多尺度仅级联了24-net的特征向量。

  NMS,步骤是先找个分最高的,然后把和他IoU大于门限的框都拒掉。然而由于12-net和24-net的输出准确率本来就还低,如果挑分最高的把其他的都拒掉,怕最后得不到较高的召回率,因此这里NMS需要谨慎使用(应该是IoU门限尽量设高一点,多保留一些候选框。另外这里是针对同一尺度做NMS)另外,12和24是校准后做NMS,而48是校准前就做NMS,并且是全局做(也即不同尺度之间也会做),这样可以避免无用的计算量。

  然后又单独谈了谈校准,本文的校准用的是分类的方法,相对而言更简单,需要的训练数据也更少,相比而言,RCNN中的回归方法需要更多的训练数据。

二、训练及实验

  训练方面,结构中自带难例挖掘功能,训练24-net时,是先用12-net去扫描背景图,将得分大于T1门限的作为24-net的输入。另外文章强调,训练策略是将一个难的问题分解为多个容易解决的子问题,如果用一整个CNN扫描整张图,训练难度会比较大。

 

  实验部分,其实这部分我比较关心的一些参数设置问题,比如batch size,比如图像金字塔的层数多少,这些实际上会影响检测速度和精度的参数设置不说,文章太没诚意了。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值