基于MMOD方法的人脸识别模型

基于MMOD方法的人脸识别模型

摘要: 大多数物体检测方法通过将二元分类器应用于图像的子窗口,然后进行非极大抑制,消除重叠子窗口上的检测结果。通常子窗口数量非常庞大,因此分类器通常仅从子窗口的子集中学习,这会导致次优的检测器性能。本文的介绍了一种新方法,最大间隔物体检测(MMOD),用于学习在图像中检测物体。该方法不执行任何子采样,而是优化所有子窗口,解决了传统方法没有充分利用训练数据,仅能找到次优解的问题。本文介绍了MMOD方法的基本原理,并测试了MMOD-CNN人脸检测器和HOG+线性SVM人脸检测器在检测新数据集中的性能,证明了MMOD方法的优越性。

关键词:目标检测、MMOD方法、子窗口、ROC

  • 引言

1.1本文主要内容

本文主要介绍了《Max-Margin Object Detection》论文中所提出的最大间隔物体检测(MMOD)方法的原理,介绍了MMOD算法的原理以及相对于传统算法的优点,并用MMOD-CNN人脸检测器和HOG+线性SVM人脸检测器在FERET,Colorferet数据集上进行了测试,证明了MMOD方法的优越性。其中主要完成了MMOD算法理论的推导、测试数据集的收集与选取和两种检测器在数据集上的测试比较工作。

1.2 本文章节安排

本文共分为四章,其中各个章节的主要内容如下。

第一章为引言,介绍了本文主要的研究内容和行文组织结构。

第二章为问题的提出,介绍目标检测的基本情况。

第三章为最大间隔物体检测(MMOD)方法的原理。

第四章为MMOD-CNN与HOG+线性SVM的测试比较。

第五章介绍了本学期对《机器学习》这门课的学习与体会。

  • 问题的提出

目标检测在日常生活中已经有了广泛的应用,如人脸识别、智慧交通等。其中人脸识别在日常生活中的应用种类丰富,人脸识别门禁就是一个很好的例子,在上海大学等高校都有实际的应用,大大放便人们的日常生活。可见,目标检测和人们生活息息相关,是非常重要的研究对象。

目标检测归根到底是对图像的检测,那对于一张图片,计算机可以如何理解呢?根据任务的需要,有图1中所示三个主要的层次:

图1:机器理解图像的三个层次

一是分类(Classification),即是将图像结构化为某一类别的信息,用事先确定好的类别或实例ID来描述图片。这一任务是最简单、最基础的图像理解任务,也是深度学习模型最先取得突破和实现大规模应用的任务。其中,ImageNet是最权威的评测集,每年的ILSVRC催生了大量的优秀深度网络结构,为其他任务提供了基础。在应用领域,人脸、场景的识别等都可以归为分类任务。

二是检测(Detection)。分类任务关心整体,给出的是整张图片的内容描述,而检测则关注特定的物体目标,要求同时获得该目标的类别信息和位置信息(classification + localization)。相比分类,检测给出的是对图片前景和背景的理解,我们需要从背景中分离出感兴趣的目标,并确定这一目标的描述(类别和位置),因此检测模型的输出是一个列表,列表的每一项使用一个数组给出检出目标的类别和位置(常用矩形检测框的坐标表示)。

三是分割(Segmentation)。分割包括语义分割和实例分割,前者是对前背景分离的拓展,要求分离开具有不同语义的图像部分,而后者是检测任务的拓展,要求描述出目标的轮廓(相比检测框更为精细)。分割是对图像的像素级描述,它赋予每个像素类别(实例)意义,适用于理解要求较高的场景,如无人驾驶中对道路和非道路的分割。  

    为了实现不同的要求,开发出了不同的算法,其中R-CNN就是早期实现目标检测的算法,它在VOC 2007测试集上mAP达到了58.5%,打败当时所有的目标检测算法。R-CNN算法的基本流程如下所示:

1.预训练模型。选择一个预训练神经网络。

2.重新训练全连接层。使用需要检测的目标重新训练,最后全连接层。

3.提取 proposals并计算CNN 特征。利用选择性搜索算法提取所有proposals(大约2000幅images),调整它们成固定大小,以满足 CNN输入要求,然后将feature map 保存到本地磁盘。

4.训练SVM。利用feature map 训练SVM来对目标和背景进行分类,需要对每个类分配一个二进制SVM。

5.边界框回归。训练将输出一些校正因子的线性回归分类器。

    当然,作为一个早期的算法它也有不少缺点,如

1.重复计算,每个region proposal,都需要经过一个AlexNet特征提取,为所有的RoI提取特征大约花费47秒,占用空间。

2.selective search方法生成region proposal,对一帧图像,需要花费2秒

3.三个模块是分别训练的,并且在训练时候,对于存储空间消耗较大

    R-CNN方法是2013被提出的,优缺点都比较明显,问题已经提出,亟待人们去解决。当时有许多人都致力于对其的改进,本文所引用的《Max-Margin Object Detection》就是在2015年提出MMOD方法对R-CNN方法进行了改进。

  • 最大间隔物体检测(MMOD)方法的原理


在目标检测过程中要确定目标在图片中的位置,因此我们需要将图片分成许多个子区域

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值