原文链接 http://mp.weixin.qq.com/s?__biz=MzI1NTE4NTUwOQ==&mid=2650324508&idx=1&sn=b103ea69129c794194e395076a97cf04&scene=4#wechat_redirect
深度学习给目标检测带来的变革 人脸检测作为一种特定类型目标的检测任务,一方面具有其自己鲜明的特点,需要考虑人脸这一目标的特殊性,另一方面其也和其它类型目标的检测任务具有一定的共性,能够直接借鉴在通用目标检测方法上的研究经验。 目标检测任务作为一个分类问题,其不仅受益于计算机视觉领域相关技术的不断发展,在机器学习领域的研究进展同样也对目标检测任务具有推波助澜的作用。事实上,从2006年开始逐步蔓延开的深度学习大爆发给目标检测的研究带来了强劲的助推力,使得通用的目标检测以及各种特定类型目标的检测任务得到了跨越式地发展。 从神经网络到深度学习 深度学习本质上并不是一项新的技术,作为其物理核心的神经网络早在上个世纪中叶就已经有人开始研究,并且在上世纪末已经经历过一次研究高潮。 从“深度学习”这一字面上可以看到,神经网络改头换面重出江湖,关键在一个“深”字上。神经网络是一种受大脑结构启发而设计出的层级模型,其由一系列按照一定规则相连接的节点组成,形成一种层次化的结构。最简单的一个神经网络只包含3层:输入层、隐层(和外部的输入、输出没有直接关联)和输出层,相邻两层之间的节点通过有向边相连接,其中每条边对应有一个权值。
为了说明神经网络所表示的函数,我们考虑一个更为简单的结构:只有一个输入层和一个输出层,其中输入层有 d 个节点,输出层只有一个节点,这个节点和所有的输入层节点相连。输入层节点从外部接受输入x = (x1, x2, · · · , xd),其和输出层节点的连接对应的权值是 w = (w1, w2, · · · , wd),输出层节点会对自己的输入做一个变换 g,得到输出 y,那么有
其中变换 g 通常称为节点的激活函数,是一个非线性函数,如
通常我们还会在求和时增加一个偏置项 b,即有
类似地,我们可以写出 3 层神经网络所表示的函数
其中 W2 和 W3 分别是输入层节点与隐层节点之间、隐层节点和输出层节点之间的连接的权值所构成的矩阵,而 b2 和 b3 则是对应的偏置项所构成的向量。依次类推,我们可以推广到 n 层的神经网络。可以看到,神经网络有一个非常大的特点,就是非线性激活函数的引入和层层嵌套,这使得其能够表示高度非线性(相对于输入而言)的函数,因而对于复杂的数据变化模式具有更强的建模能力。 早期的神经网络一般层数比较少(如3层的浅层网络),因为多层的深度网络学习起来非常困难,在各种任务上难以取得令人满意的表现,这一状况直到 2006 年才被打破。在2006年,机器学习领域的泰斗 Geoffrey E.Hinton 教授在《科学》杂志上发表了题为《Reducing the Dimensionality of Data with Neural Networks》的论文,这一工作为深度网络的学习提供了一种有效的解决方案:采用无监督的方式对网络进行逐层预训练,从而打开了学习深度网络的大门。在接下来的几年中,人们对深度网络的热情已经高涨到了无以复加的地步,有关设计和学习深度网络的各种问题也逐一被解决,从初始化方式到优化方法,从激活函数到网络结构,科研工作者们对此产生了全方位的研究,使得深度网络的训练能够做得又快又好。由于对神经网络本身的探讨并不在本文所涉及的范畴之内,因此这里不再展开讨论,读者只需要将神经网络看成是一种具有更强非线性建模能力的模型即可。 神经网络分为很多种,上面提到的只是其中最简单一种:前馈神经网络——也经常被简称为神经网络,因此神经网络这个名字很多时候指的仅仅是前馈网络这一种。在计算机视觉领域,应用最成功的一种神经网络是卷积神经网络(CNN),其最大的特点就是引入了卷积操作,将前馈网络中的全连接替换为局部连接,在不同的连接之间进行权值共享——将一个卷积核作用于一张图像时,卷积核就像检测时的观察窗口,其从图像的左上角逐步滑动到右下角,其滑动的每个位置对应于一个输出节点,这个节点只和窗口内的输入节点(图像上每一个点都对应于一个输入节点)相连接,而不同输出节点和对应输入节点连接的权值是相同的。
卷积神经网络在处理图像问题上具有得天独厚的优势,因为卷积操作可以自然地保留图像的空间信息,其只作用域局部,因而输出节点的空间结构和输入节点的空间结构是对应的,而前馈神经网络则做不到这一点:输入节点的排列顺序甚至可以是任意的,只要相应地调换连接的权值,就能保证输出不变。CNN早在上世纪末就由著名的机器学习研究者Yann LeCun设计出来,并应用于手写数字的识别问题,不过其在计算机视觉领域大规模得到应用则源于2012年CNN在一般的图像分类任务上的巨大成功。
R-CNN 系列 在2013年底,深度学习给目标检测任务点起了一把火,这个火种就是R-CNN,其中R对应于“Region(区域)”,意指CNN以图像区域作为输入,这个工作最终发展成了一个系列,也启发和衍生出了大量的后续工作,这一场大火简直烧红了计算机视觉领域的半边天。 R-CNN的提出变革了目标检测方法中很多旧有的做法,同时在标准的目标检测评测数据集上使检测精度得到了前所未有的提升。在检测方法上的变革,首当其冲的是抛弃了滑动窗口范式,取而代之的是一个新的生成候选窗口的环节。对于给定的图像,不再用一个滑动窗口去对图像进行扫描,枚举所有可能的情况,而是采用某种方式“提名”出一些候选窗口,在获得对待检测目标可接受的召回率的前提下,候选窗口的数量可以控制在几千个或者几百个。从某种意义上讲,VJ 人脸检测器中多个分类器相级联,每一级分类器都在为接下来的一级分类器提名候选窗口,但是这和 R-CNN 所采用的生成候选窗口的方式有一个重要的区别:实际上所有的窗口仍然都被检查了一遍,只是不断在排除,这是一种减法式的方案。相比之下,R-CNN 采用的候选窗口生成方式,是根据图像的某些特征来猜测可能有哪些地方存在待检测的目标,以及这些目标有多大,这是一种从无到有的加法式的方案。Selective Search是一种典型的候选窗口生成方法,其采用了图像分割的思路,简单地说,Selective Search方法先基于各种颜色特征将图像划分为多个小块,然后自底向上地对不同的块进行合并,在这个过程中,合并前后的每一个块都对应于一个候选窗口,最后挑出最有可能包含待检测目标的窗口作为候选窗口。 除了引入候选窗口生成方法,第二点非常大的改变在特征提取上:不再采用人工设计的特征,而是用 CNN来自动学习特征。特征提取过程就是从原始的输入图像(像素颜色值构成的矩阵)变换到特征向量的过程,之前的如 Haar 特征等是科研工作者根据自己的经验和对研究对象的认识设计出来的,换言之人工定义了一个变换,而新的做法是只限定这个变换能够用CNN来表示——事实上 CNN 已经可以表示足够多足够复杂的变换,而不具体设计特征提取的细节,用训练数据来取代人的角色。这种自动学习特征的做法是深度学习一个非常鲜明的特色。自动去学习合适的特征,这种做法的好处和让分类器自动去学习自己的参数的好处是类似的,不仅避免了人工干预,解放了人力,而且有利于学习到更契合实际数据和目标的特征来,特征提取和分类两个环节可以相互促进,相辅相成;不过缺点也是有的,自动学习出的特征往往可解释性比较差,不能让人直观地去理解为什么这样提取出特征会更好,另外就是对训练集会产生一定程度的依赖。 还有一点值得一提的是,R-CNN在检测过程中引入了一个新的环节:边框回归(友情提醒:“框”念第四声,不是多音字!),检测不再仅仅是一个分类问题,它还是一个回归问题——回归和分类的区别就在于回归模型输出的不是离散的类别标签,而是连续的实数值。边框回归指的是在给定窗口的基础上去预测真实检测框的位置和大小,也就是说,有了候选窗口之后,如果其被判别成了一个人脸窗口,那就会进一步被调整以得到更加精确的位置和大小——和待检测目标贴合得更好。边框回归一方面提供了一个新的角度来定义检测任务,另一方面对于提高检测结果的精确度有比较显著的作用。 用R-CNN进行目标检测的流程是:先采用如 Selective Search等方法生成候选窗口,然后用学习好的CNN提取候选窗口对应的特征,接着训练分类器基于提取的特征对候选窗口进行分类,最后对判别为人脸的窗口采用边框回归进行修正。 虽然R-CNN带来了目标检测精度的一次巨大提升,然而由于所采用的候选窗口生成方法和深度网络都具有比较高的计算复杂度,因而检测速度非常慢。为了解决R-CNN的速度问题,紧接着出现了Fast R-CNN和Faster R-CNN,从名字上可以看到,它们的速度一个比一个快。第一步加速是采用了类似于 VJ 人脸检测器中积分图的策略,积分图是对应整张输入图像计算的,它就像一张表,在提取单个窗口的特征时,直接通过查表来获取所需要的数据,然后进行简单的计算即可,在R-CNN中每个候选窗口都需要单独通过CNN来提取特征,当两个窗口之间有重叠部分时,重叠部分实际上被重复计算了两次,而在 Fast R-CNN 中,直接以整张图像作为输入,先得到整张图对应的卷积特征图,然后对于每一个候选窗口,在提取特征时直接去整张图对应的卷积特征图上取出窗口对应的区域,从而避免重复计算,之后只需要通过所谓的RoIPooling层来将所有的区域放缩到相同大小即可,这一策略的使用可以提供几十甚至上百倍的加速。第二步加速,Fast R-CNN利用了一种名为 SVD 的矩阵分解技术,其作用是将一个大的矩阵(近似)拆解为三个小的矩阵的乘积,使得拆解之后三个矩阵的元素数目远小于原来大矩阵的元素数目,从而达到在计算矩阵乘法时降低计算量的目的,通过将 SVD应用于全连接层的权值矩阵,处理一张图片所需要的时间能够降低30%。
第三步加速,Faster R-CNN开始着眼于生成候选窗口的环节,其采用 CNN 来生成候选窗口,同时让其和分类、边框回归所使用的 CNN 共享卷积层,这样使得两个步骤中可以使用同样的卷积特征图,从而极大地减少计算量。
除了采用各种策略进行加速,从R-CNN到Faster R-CNN,检测的框架和网络结构也在不断发生改变。R-CNN从整体框架上来说,和传统的检测方法没有本质区别,不同的环节由单独的模块来完成:一个模块生成候选窗口(Selective Search),一个模块进行特征提取(CNN),一个模块对窗口进行分类(SVM),除此之外还增加了一个模块做边框回归。到Fast R-CNN的时候,后面三个模块合并成了一个模块,全部都用CNN来完成,因此整个系统实际上只剩下两个模块:一个模块生成候选窗口,另一个模块直接对窗口进行分类和修正。再到Faster R-CNN,所有的模块都整合到了一个CNN中来完成,形成了一种端到端的框架:直接从输入图像通过一个模型得到最终的检测结果,这种多任务在同一个模型中共同学习的做法,能够有效利用任务之间的相关性,达到相辅相成、相得益彰的效果。从 R-CNN 到 Faster R-CNN,这是一个化零为整的过程,其之所以能够成功,一方面得益于CNN强大的非线性建模能力,能够学习出契合各种不同子任务的特征,另一方面也是因为人们认识和思考检测问题的角度在不断发生改变,打破旧有滑动窗口的框架,将检测看成一个回归问题,不同任务之间的耦合。尽管目前 Faster R-CNN在速度上仍然无法和采用非深度学习方法的检测器相比,但是随着硬件计算能力的不断提升和新的CNN加速策略的接连出现,速度问题在不久的将来一定能够得到解决。 全卷积网络和 DenseBox 卷积层是CNN区别于其它类型神经网络的本质特点,不过CNN通常也不仅仅只包含卷积层,其也会包含全连接层,全连接层的坏处就在于其会破坏图像的空间结构,因此人们便开始用卷积层来“替代”全连接层,通常采用1 × 1的卷积核,这种不包含全连接层的CNN称为全卷积网络(FCN)。FCN最初是用于图像分割任务,之后开始在计算机视觉领域的各种问题上得到应用,事实上,Faster R-CNN中用来生成候选窗口的CNN就是一个FCN。 FCN 的特点就在于输入和输出都是二维的图像,并且输出和输入具有相对应的空间结构,在这种情况下,我们可以将 FCN 的输出看成是一张热度图,用热度来指示待检测目标的位置和覆盖的区域:在目标所处的区域内显示较高的热度,而在背景区域显示较低的热度,这也可以看成是对图像上的每一个像素点都进行了分类:这个点是否位于待检测的目标上。DenseBox是一个典型的基于全卷积网络的目标检测器,其通过 FCN得到待检测目标的热度图,然后根据热度图来获得目标的位置和大小,这给目标检测又提供了一种新的问题解决思路。(下面这张图其实来源于另一篇论文,放在这里仅用来帮助读者了解人脸热度图长什么样子。)
在DenseBox中,还有一点值得一提,其在分类的同时还会预测特征点的位置——就像上篇中提到的 JointCascade一样,DenseBox将检测和特征点定位两个任务集成在同一个网络中,并且也用热图的方式来确定每个点的位置。
基于CNN的人脸检测器 上面提到的都是通用的目标检测器,这些检测器可以直接通过人脸图像来学习从而得到人脸检测器,虽然它们没有考虑人脸本身的特殊性,但是也能够获得非常好的精度,这反映出不同类型目标的检测其实是相通的,存在一套通用的机制来处理目标检测问题。也有一部分工作是专门针对人脸检测任务的,有的考虑了人脸自身的特点,有的其实也是比较通用的目标检测方法,可以自然地迁移到各种类型目标的检测任务中去。 FacenessNet是专门针对人脸设计的一个检测器,其考虑了头发、眼睛、鼻子、嘴巴和胡子这五个脸部特征,简单地说,对于一个候选窗口,FacenessNet 先分析这五个部分是否存在,然后再进一步判断是不是一张人脸。
这种方法一方面同时利用了整体和局部的信息,能够从不同的角度对图像内容进行刻画,使得人脸和非人脸能够更好地被区分;另一方面增强了对遮挡的鲁棒性,人脸的局部遮挡会影响整体表现出的特征,但是并不会对所有的局部区域造成影响,因而增强了检测器对遮挡的容忍度。
检测精度的大跃进
随着越来越多的检测器开始采用深度网络,人脸检测的精度也开始大幅地提升。在2014年,学术界在FDDB上取得的最好检测精度是在100个误检时达到84%的检测率,达到这一精度的是JointCascade 人脸检测器。到2015年,这一纪录被FacenessNet 打破,在100个误检时,检测率接近88%,提升了几乎4个百分点。不仅如此,工业界的最好记录已经达到了100个误检时92.5%的检测率,检测率达到 90%以上的公司还不止一家,并且这些结果都是通过基于深度网络的人脸检测器所获得的。
在大幅提升人脸检测精度的同时,深度学习实际上还降低了包括人脸检测技术在内的各种目标检测技术的门槛,几乎到了只要采用深度网络就能获得不错的检测精度的地步;在精度方面,相比于基于非深度学习方法的检测器,基于深度学习方法的检测器在起点上就要高出一截。不过在检测速度方面,基于深度学习方法的检测器还难以达到实际应用的需求,即使是在GPU上,也还不能以实时的速度(25fps)运行;而反过来看,一旦速度问题能够得到解决,那么深度学习也一定会在目标检测任务上有更广泛和更大规模的应用。
传统人脸检测技术和 CNN 的结合
VJ人脸检测器自提出以来,启发和影响了后续的大量工作,所引入的积分图、AdaBoost方法、级联结构等至今仍在各种各样的检测器中以不同的形式被使用。传统的人脸检测技术优势在于速度,而在精度上则相比基于深度网络的方法要略输一筹,在这种情况下,一个自然的想法就是:能否将传统的人脸检测技术和深度网络(如CNN)相结合,在保证检测速度的情况下进一步提升精度?
Cascade CNN可以认为是传统技术和深度网络相结合的一个代表,和VJ人脸检测器一样,其包含了多个分类器,这些分类器采用级联结构进行组织,然而不同的地方在于,Cascade CNN采用CNN作为每一级的分类器,而不是用AdaBoost方法通过多个弱分类器组合成的强分类器,并且也不再有单独的特征提取过程,特征提取和分类都由CNN来统一完成。在检测过程中,Cascade CNN采用的还是传统的滑动窗口范式,为了避免过高的计算开销,第一级的CNN仅包含一个卷积层和一个全连接层,并且输入图像的尺寸控制在12*12,同时滑动窗口的步长设置为4个像素,在这种情况下,一方面每张图像上候选窗口的数量变少了,窗口数量随着滑动步长的增大是按照平方规律下降的,另一方面每个窗口提取特征和分类的计算开销也受到了严格控制。经过第一级CNN之后,由于通过的窗口中人脸和非人脸窗口之间更加难以区分,因此第二级CNN将输入图像的尺寸增大到了24*24,以利用更多的信息,并且提高了网络复杂度——虽然仍然只包含一个卷积层和一个全连接层,但是卷积层有更多的卷积核,全连接层有更多的节点。第三级CNN也采用了类似的思路,增大输入图像大小的同时提高网络的复杂度——采用了两个卷积层和一个全连接层。通过引入CNN,传统的级联结构也焕发出了新的光彩,在FDDB上,Cascade CNN在产生100个误检的时候达到了85%的检测率,而在速度上,对于大小为640*480的图像,在限定可检测的最小人脸大小为80*80的条件下,Cascade CNN在CPU上能够保持接近10fps的处理速度。Cascade CNN中还采用了一些其它的技术来保证检测的精度和速度,如多尺度融合、边框校准、非极大值抑制等,限于篇幅,这里不再继续展开。 吸取传统人脸检测技术中的精华,借鉴深度学习研究的最新成果,在对问题的深刻思考和理解上,探寻旧瓶装新酒的最佳模式,这是一条值得去继续探索的道路。
对现状和未来的简单思考
经过几十年的研究和发展,人脸检测方法正日趋成熟,在现实场景中也已经得到了比较广泛的应用,但是人脸检测问题还并没有被完全解决,复杂多样的姿态变化,千奇百怪的遮挡情况,捉摸不定的光照条件,不同的分辨率,迥异的清晰度,微妙的肤色差,各种内外因素的共同作用让人脸的变化模式变得极其丰富,而目前还没有检测器可以同时对所有的变化模式都足够鲁棒。
目前的人脸检测器在FDDB上已经能够取得不错的性能,不少检测器在100个误检时的检测率达到了80%以上,这意味着它们检测出40个以上的人脸才会出现一个误检。到目前为止,本文所提到的误检和召回率都对应于FDDB上的离散型得分ROC曲线,所谓“离散型”是指每个人脸是否被检测到是分别用1和0来表示的;相对应地也有连续型得分ROC曲线,而“连续型”指的是人脸被检测到与否是通过检测框和标注框之间的交并比来表示的,从某种意义上来说,连续型得分试图评判的是检测框的准确程度,即检测框的位置和大小与实际人脸的位置和大小的接近程度。对于两个不同的检测器而言,两类曲线的相对关系并非是完全一致的:离散型得分ROC曲线接近的两个检测器,其对应的连续型得分ROC曲线可能存在明显的差异。最直接地,这说明有的检测器虽然检测出了人脸,但是检测框的准确度比较低,但其实造成这种不一致性的另一个重要原因还在于检测框与标注框之间的差异性。在FDDB中人脸是通过椭圆来进行标注的,大多数情况下,几乎会包含整个头部,相比之下,检测器给出的检测结果是矩形的人脸框,并且通常只包含脸部区域——尤其是对于采用滑动窗口范式的检测器,这就很容易导致检测框和标注椭圆之间的交并比过小,甚至可能小于0.5。对不同的检测器来说,其能够最好地区分人脸和非人脸窗口的情况所对应的框的大小会有所不同,从而不同检测器给出的检测框也会存在差别,部分方法会采用扩大检测框或者回归椭圆的方式,以尽量减小由标注框和检测框的不一致性所造成的影响,保证评测的公平性。
除了标注框的问题之外,要更为客观地看待FDDB上的评测结果,我们还需要考虑另外一点:FDDB测试图像上的人脸和实际应用场景的差异性,换言之,我们需要思考这样一个问题:人脸检测器在FDDB上所达到的精度能否真实反映其在实际应用场景中的表现?FDDB中测试图像上的人脸包含了从表情到姿态、从光照到遮挡等各个方面的变化,因而是一个相对通用的数据集,但是在实际应用中,不同场景下人脸往往呈现出比较鲜明的特点,例如在视频监控场景下,由于摄像头架设位置较高和分辨率有限,同时在存储和传输过程中会引入噪声,因此图像上的人脸往往具有较大的俯仰角,且清晰度较低,在这种情况下,原来在FDDB上表现出色的检测器就未必能够达到令人满意的精度。在FDDB中,有大约10%的人脸其大小在40*40以下,而对于人脸识别等一些任务来说,太小的人脸并不适合,因此如果一个检测器因为在小脸上表现不好而导致其在FDDB上表现平平,而在较大的人脸上和表现更好的一些检测器没有太大差别,那么将其应用在人脸识别任务中是完全没有问题的,甚至还可能因为模型简单带来速度上的优势。总而言之,当面对具体的应用场景时,一方面,我们还需要具体问题具体分析,不能盲目地根据检测器在FDDB或者其它人脸检测数据集上精度来下结论;另一方面,我们需要基于当前的人脸检测器去适配实际所需要处理的数据,以使检测器能够在特定的场景下达到更好的精度。
除了FDDB之外,比较常用的人脸检测评测集还有AFW,以及最近几年公开的MALF、IJB-A和Wider Face。AFW包含的图像数比较少,总共只有205张测试图像,标注了468张人脸,不过由于其覆盖了众多的人脸变化模式,具有一定的挑战性,因此也比较常用。另外三个评测集在图像规模上都相对较大,其中MALF和Wider Face没有发布人脸标注和评测程序,需要提交检测结果给发布方进行评测,这在一定程度上防止了由于评测方式不一致而导致比较不公平和对测试集进行过拟合的情况;这两个数据集还按照不同的属性(如分辨率、姿态、难易程度等)将测试集分成了多个子集,评测时会同时在全集和子集上进行测试,这能够更加全面地反映检测器在不同场景下的能力。IJB-A中不仅包含静态人脸图像,还有一部分是从视频中提取的视频帧。在上面提到的所有评测集中,只有Wider Face提供了专门的训练集和验证集,其它评测集合都只包含测试集,这其实也给不同方法的比较带来了一个问题:我们难以判断导致检测器在精度上存在差异的原因到底是训练数据还是算法和模型本身,也不知道这两方面的因素谁起的作用更大。Wider Face应该是难度最大的一个评测集,所标注的人脸在姿态、遮挡情况等方面的跨度非常大,并且分辨率在50*50以下的人脸占到了50%(训练集和校验集中达到了80%以上),不过在部分应用场景下(如人脸识别),过于关注小尺寸的人脸并没有必要。
虽然基于深度网络的检测器目前能够达到很高的检测精度,并且其通用性非常强,但其所付出的计算代价也非常高,因此这类检测器突破的关键在于深度网络的简化和加速。除此之外,如果单单考虑人脸检测,这个分类问题相对来说要简单一些,也存在一种可能性:直接学习一个小型的网络就能足够好地完成这个任务。对于采用非深度学习方法的检测器,其基础的检测精度相比会低不少,但是速度上会有明显的优势,因此其关键在于针对特定应用场景下的问题进行合理的改进和适配,以获得更好的检测精度。 为了提供更加便利的人机交互接口,创造有效的视觉理解手段,让机器变得有温度,会观察,能感受,广大的科研工作者们在人脸检测和通用目标检测任务上还在继续探索。终有一天,当我们和机器四目相对时,彼此能够会心一笑:科学让生活更美好!
本文从人脸检测任务本身开始,介绍了人脸检测的一般流程,然后分别介绍了三类不同的人脸检测方法:以VJ人脸检测器为代表的传统方法,基于深度网络的现代方法,以及将传统的人脸检测技术和深度网络相结合的方法。然而,在人脸检测几十年的研究历程中,还有很多其它的方法不能归到这三类中来,其中比较重要的包括基于部件模型的方法和基于范本的方法,虽然本文没有对这两类方法进行介绍,但是它们在人脸检测这一问题上仍然具有重要的地位和意义,感兴趣的读者可以进一步去阅读相关论文进行了解。
作者简介邬书哲,中科院计算所智能信息处理重点实验室VIPL课题组博士生,研究方向:目标检测,尤其关注基于深度学习的目标检测方法