[文献阅读]A Convolutional Neural Network Cascade for Face Detection

最新推荐文章于 2023-06-21 00:06:44 发布

DonatelloBZero

最新推荐文章于 2023-06-21 00:06:44 发布

阅读量904

点赞数 1

分类专栏：目标检测

本文链接：https://blog.csdn.net/DonatelloBZero/article/details/52093964

版权

目标检测专栏收录该内容

1 篇文章 0 订阅

订阅专栏

　　参考资料：http://blog.csdn.net/shuzfan/article/details/50358809#comments

　　本文仅作为文献阅读补充说明之用，因此公式和图标一概没放。

　　先说说本文的几个关键词，CNN，级联，较低的计算量，多尺度。文章指出了当前人脸检测问题的几个难点，一是如何在多变的条件下检测出人脸，一个是如何提高计算能力以应对庞大的搜索空间。文章通过观察boosted cascade框架类算法得出了这样的结论：采用更先进的特征量能够提高检测精确度（所以采用了CNN作为检测单元吧），而早期快速拒绝掉大量非人脸窗口能够保证速度。这就是本文的基本论点。

（说到这里插一句，JDA算法中特征点定位采用的特征量就是那个LBF，而检测采用的特征量是随机两个特征附件点的像素差，关于这个特征量的物理意义及为何有效怎么去理解，现在还不是很明朗。）

一、网络结构

　　先说总体的网络结构吧，总共是6个CNN，3个做分类用，3个做BBox校准用。整体的结构就是，第一个CNN先拒掉大多数非脸窗，然后对窗口做一下校准，然后NMS抑制一下，这一个阶段就over了，开始第二个阶段，和第一个阶段是类似的。

　　下面具体介绍结构。第一个CNN称为12-net，采用的是滑窗的方法生成候选区域，（这点和JDA程序的实现是一致的，JDA在test时，也是步进窗口，然后对每一个窗口进行验证），窗口大小为12，步长为4，实际上的CNN为单层结构，一个conv，一个pooling，一个fc，conv的kernal大小为3*3，个数16。实际使用时要生成图片金字塔，如果某层图像的人脸大小为F（也即检测尺度为F），则对图像按照12/F进行resize，然后再输入到12-net。此处没有给出具体的金字塔层数及检测尺度。

（文章号称对800*600的图像进行12-net计算仅需要36ms，对此略表示怀疑。因为我用caffe跑一张VGA图像，conv1的用时都要远远超过这个。）

按照文章的逻辑，多尺度的特性在于，他会把12-net的特征量和24-net的特征量接在一起，能够提高精度。

　　12-校准网络设定了几个级别的尺度缩放和xy偏移量，总共有45种组合，因此实际上是将其由回归问题转化为了一个分类问题。网络输出的是各种模式的score，设定一个门限t，大于t的score对应的偏移量全部累加，作为最终的输出结果。个人认为，这里如果是用加权累加而不是直接相加更合理，至于效果，有可能并无必要，这个有待实验证实。

　　24-net的一个特点是，分类时不仅使用了本层输出的特征向量，还将12-net的特征向量串联起来，一并输入分类器，文章说这样做的好处是对于检测小脸有帮助。

　　48-net更加复杂，其多尺度仅级联了24-net的特征向量。

　　NMS，步骤是先找个分最高的，然后把和他IoU大于门限的框都拒掉。然而由于12-net和24-net的输出准确率本来就还低，如果挑分最高的把其他的都拒掉，怕最后得不到较高的召回率，因此这里NMS需要谨慎使用（应该是IoU门限尽量设高一点，多保留一些候选框。另外这里是针对同一尺度做NMS）另外，12和24是校准后做NMS，而48是校准前就做NMS，并且是全局做（也即不同尺度之间也会做），这样可以避免无用的计算量。

　　然后又单独谈了谈校准，本文的校准用的是分类的方法，相对而言更简单，需要的训练数据也更少，相比而言，RCNN中的回归方法需要更多的训练数据。

二、训练及实验

　　训练方面，结构中自带难例挖掘功能，训练24-net时，是先用12-net去扫描背景图，将得分大于T1门限的作为24-net的输入。另外文章强调，训练策略是将一个难的问题分解为多个容易解决的子问题，如果用一整个CNN扫描整张图，训练难度会比较大。

　　实验部分，其实这部分我比较关心的一些参数设置问题，比如batch size，比如图像金字塔的层数多少，这些实际上会影响检测速度和精度的参数设置不说，文章太没诚意了。

DonatelloBZero

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
[文献阅读]A Convolutional Neural Network Cascade for Face Detection

参考资料：http://blog.csdn.net/shuzfan/article/details/50358809#comments　　本文仅作为文献阅读补充说明之用，因此公式和图标一概没放。　　先说说本文的几个关键词，CNN，级联，较低的计算量，多尺度。文章指出了当前人脸检测问题的几个难点，一是如何在多变的条件下检测出人脸，一个是如何提高计算能力以应对庞大的搜索空间。文章通过观察boo
复制链接

扫一扫