一、介绍
1.1 背景
- 人脸检测(Face Detection)旨在从输入的图像中定位出所有人脸的位置,并以矩形框的形式进行标注。具体而言,给定一幅图像img作为输入,人脸检测算法会输出若干个矩形框的位置信息(x,y,w,h),其中(x,y)表示矩形框左上角的坐标,w和h分别代表矩形框的宽度和高度。这些矩形框将准确地框选出图像中的人脸区域。就像下图这样:
- 从领域范畴来说,人脸检测隶属于目标检测这一大类别。目标检测主要分为两大类:
- 通用目标检测,它旨在检测图像中多个不同类别的目标。例如,ILSVRC2017的VID任务需要检测200类不同的目标,而VOC2012则需要检测20类目标。其核心在于解决一个n(目标)+1(背景)=n+1的分类问题。这类检测方法通常构建的模型较大,因此在速度上稍显迟缓,鲜有顶尖的方法能够达到CPU实时处理的要求。
- 特定类别目标检测,则专注于检测图像中某一类特定的目标,比如人脸检测、行人检测或车辆检测等。其核心在于解决一个1(目标)+1(背景)=2的分类问题。这类检测方法通常设计的模型相