基于MMOD方法的人脸识别模型

最新推荐文章于 2024-09-14 16:08:38 发布

kkkkkkddddd15

最新推荐文章于 2024-09-14 16:08:38 发布

阅读量809

点赞数 18

文章标签： angular.js

本文链接：https://blog.csdn.net/kkkkkkddddd15/article/details/135942894

版权

基于MMOD方法的人脸识别模型

摘要： 大多数物体检测方法通过将二元分类器应用于图像的子窗口，然后进行非极大抑制，消除重叠子窗口上的检测结果。通常子窗口数量非常庞大，因此分类器通常仅从子窗口的子集中学习，这会导致次优的检测器性能。本文的介绍了一种新方法，最大间隔物体检测（MMOD），用于学习在图像中检测物体。该方法不执行任何子采样，而是优化所有子窗口，解决了传统方法没有充分利用训练数据，仅能找到次优解的问题。本文介绍了MMOD方法的基本原理，并测试了MMOD-CNN人脸检测器和HOG+线性SVM人脸检测器在检测新数据集中的性能，证明了MMOD方法的优越性。

关键词：目标检测、MMOD方法、子窗口、ROC

引言

1.1本文主要内容

本文主要介绍了《Max-Margin Object Detection》论文中所提出的最大间隔物体检测（MMOD）方法的原理，介绍了MMOD算法的原理以及相对于传统算法的优点，并用MMOD-CNN人脸检测器和HOG+线性SVM人脸检测器在FERET，Colorferet数据集上进行了测试，证明了MMOD方法的优越性。其中主要完成了MMOD算法理论的推导、测试数据集的收集与选取和两种检测器在数据集上的测试比较工作。

1.2 本文章节安排

本文共分为四章，其中各个章节的主要内容如下。

第一章为引言，介绍了本文主要的研究内容和行文组织结构。

第二章为问题的提出，介绍目标检测的基本情况。

第三章为最大间隔物体检测（MMOD）方法的原理。

第四章为MMOD-CNN与HOG+线性SVM的测试比较。

第五章介绍了本学期对《机器学习》这门课的学习与体会。

问题的提出

目标检测在日常生活中已经有了广泛的应用，如人脸识别、智慧交通等。其中人脸识别在日常生活中的应用种类丰富，人脸识别门禁就是一个很好的例子，在上海大学等高校都有实际的应用，大大放便人们的日常生活。可见，目标检测和人们生活息息相关，是非常重要的研究对象。

目标检测归根到底是对图像的检测，那对于一张图片，计算机可以如何理解呢？根据任务的需要，有图1中所示三个主要的层次：

图1：机器理解图像的三个层次

一是分类（Classification），即是将图像结构化为某一类别的信息，用事先确定好的类别或实例ID来描述图片。这一任务是最简单、最基础的图像理解任务，也是深度学习模型最先取得突破和实现大规模应用的任务。其中，ImageNet是最权威的评测集，每年的ILSVRC催生了大量的优秀深度网络结构，为其他任务提供了基础。在应用领域，人脸、场景的识别等都可以归为分类任务。

二是检测（Detection）。分类任务关心整体，给出的是整张图片的内容描述，而检测则关注特定的物体目标，要求同时获得该目标的类别信息和位置信息（classification + localization）。相比分类，检测给出的是对图片前景和背景的理解，我们需要从背景中分离出感兴趣的目标，并确定这一目标的描述（类别和位置），因此检测模型的输出是一个列表，列表的每一项使用一个数组给出检出目标的类别和位置（常用矩形检测框的坐标表示）。

三是分割（Segmentation）。分割包括语义分割和实例分割，前者是对前背景分离的拓展，要求分离开具有不同语义的图像部分，而后者是检测任务的拓展，要求描述出目标的轮廓（相比检测框更为精细）。分割是对图像的像素级描述，它赋予每个像素类别（实例）意义，适用于理解要求较高的场景，如无人驾驶中对道路和非道路的分割。　　

为了实现不同的要求，开发出了不同的算法，其中R-CNN就是早期实现目标检测的算法，它在VOC 2007测试集上mAP达到了58.5%，打败当时所有的目标检测算法。R-CNN算法的基本流程如下所示：