基于MMOD方法的人脸识别模型
摘要: 大多数物体检测方法通过将二元分类器应用于图像的子窗口,然后进行非极大抑制,消除重叠子窗口上的检测结果。通常子窗口数量非常庞大,因此分类器通常仅从子窗口的子集中学习,这会导致次优的检测器性能。本文的介绍了一种新方法,最大间隔物体检测(MMOD),用于学习在图像中检测物体。该方法不执行任何子采样,而是优化所有子窗口,解决了传统方法没有充分利用训练数据,仅能找到次优解的问题。本文介绍了MMOD方法的基本原理,并测试了MMOD-CNN人脸检测器和HOG+线性SVM人脸检测器在检测新数据集中的性能,证明了MMOD方法的优越性。
关键词:目标检测、MMOD方法、子窗口、ROC
- 引言
1.1本文主要内容
本文主要介绍了《Max-Margin Object Detection》论文中所提出的最大间隔物体检测(MMOD)方法的原理,介绍了MMOD算法的原理以及相对于传统算法的优点,并用MMOD-CNN人脸检测器和HOG+线性SVM人脸检测器在FERET,Colorferet数据集上进行了测试,证明了MMOD方法的优越性。其中主要完成了MMOD算法理论的推导、测试数据集的收集与选取和两种检测器在数据集上的测试比较工作。
1.2 本文章节安排
本文共分为四章,其中各个章节的主要内容如下。
第一章为引言,介绍了本文主要的研究内容和行文组织结构。
第二章为问题的提出,介绍目标检测的基本情况。
第三章为最大间隔物体检测(MMOD)方法的原理。
第四章为MMOD-CNN与HOG+线性SVM的测试比较。
第五章介绍了本学期对《机器学习》这门课的学习与体会。
- 问题的提出
目标检测在日常生活中已经有了广泛的应用,如人脸识别、智慧交通等。其中人脸识别在日常生活中的应用种类丰富,人脸识别门禁就是一个很好的例子,在上海大学等高校都有实际的应用,大大放便人们的日常生活。可见,目标检测和人们生活息息相关,是非常重要的研究对象。
目标检测归根到底是对图像的检测,那对于一张图片,计算机可以如何理解呢?根据任务的需要,有图1中所示三个主要的层次:
图1:机器理解图像的三个层次
一是分类(Classification),即是将图像结构化为某一类别的信息,用事先确定好的类别或实例ID来描述图片。这一任务是最简单、最基础的图像理解任务,也是深度学习模型最先取得突破和实现大规模应用的任务。其中,ImageNet是最权威的评测集,每年的ILSVRC催生了大量的优秀深度网络结构,为其他任务提供了基础。在应用领域,人脸、场景的识别等都可以归为分类任务。
二是检测(Detection)。分类任务关心整体,给出的是整张图片的内容描述,而检测则关注特定的物体目标,要求同时获得该目标的类别信息和位置信息(classification + localization)。相比分类,检测给出的是对图片前景和背景的理解,我们需要从背景中分离出感兴趣的目标,并确定这一目标的描述(类别和位置),因此检测模型的输出是一个列表,列表的每一项使用一个数组给出检出目标的类别和位置(常用矩形检测框的坐标表示)。
三是分割(Segmentation)。分割包括语义分割和实例分割,前者是对前背景分离的拓展,要求分离开具有不同语义的图像部分,而后者是检测任务的拓展,要求描述出目标的轮廓(相比检测框更为精细)。分割是对图像的像素级描述,它赋予每个像素类别(实例)意义,适用于理解要求较高的场景,如无人驾驶中对道路和非道路的分割。
为了实现不同的要求,开发出了不同的算法,其中R-CNN就是早期实现目标检测的算法,它在VOC 2007测试集上mAP达到了58.5%,打败当时所有的目标检测算法。R-CNN算法的基本流程如下所示:
1.预训练模型。选择一个预训练神经网络。
2.重新训练全连接层。使用需要检测的目标重新训练,最后全连接层。
3.提取 proposals并计算CNN 特征。利用选择性搜索算法提取所有proposals(大约2000幅images),调整它们成固定大小,以满足 CNN输入要求,然后将feature map 保存到本地磁盘。
4.训练SVM。利用feature map 训练SVM来对目标和背景进行分类,需要对每个类分配一个二进制SVM。
5.边界框回归。训练将输出一些校正因子的线性回归分类器。
当然,作为一个早期的算法它也有不少缺点,如
1.重复计算,每个region proposal,都需要经过一个AlexNet特征提取,为所有的RoI提取特征大约花费47秒,占用空间。
2.selective search方法生成region proposal,对一帧图像,需要花费2秒
3.三个模块是分别训练的,并且在训练时候,对于存储空间消耗较大
R-CNN方法是2013被提出的,优缺点都比较明显,问题已经提出,亟待人们去解决。当时有许多人都致力于对其的改进,本文所引用的《Max-Margin Object Detection》就是在2015年提出MMOD方法对R-CNN方法进行了改进。
- 最大间隔物体检测(MMOD)方法的原理
在目标检测过程中要确定目标在图片中的位置,因此我们需要将图片分成许多个子区域