A Light CNN for Deep Face Representation with Noisy Labels

https://arxiv.org/abs/1511.02683
https://github.com/AlfredXiangWu/LightCNN.
本文创新点:
1.MFM不仅可以分离含噪信号和信息量信号,还可以在两幅特征图之间进行特征选择
2.利用训练好的模型的预测结果对带噪标记的数据集进行重新标定。然后我们用重新标定的数据集重新训练Light CNN-9。最后,我们通过再训练的模型对原始带噪标记的数据集进行再采样,构造出数据清洗后的MS-Celeb-1M数据集。

摘要

为了更好地拟合大量的训练数据,针对人脸识别提出的卷积神经网络(CNN)模型的体积一直在不断增大。当从互联网上获取训练数据时,标签很容易模糊和不准确。本文提出了一种Light CNN框架来学习在带有大量噪声标签的大规模人脸数据上进行紧凑嵌入。首先,我们在CNN的每个卷积层中引入一个名为Max-Feature-Map (MFM)的maxout激活变体。与maxout激活使用许多特征映射来线性近似任意凸激活函数不同,MFM是通过竞争关系实现的。MFM不仅可以分离含噪信号和信息量信号,还可以在两幅特征图之间进行特征选择。 其次,精心设计了三个网络,以获得更好的性能,同时减少参数的数量和计算代价。最后,提出了一种语义自举的方法,使网络的预测更符合有噪声的标签。实验结果表明,该框架可以利用大规模的有噪数据来学习一个在计算成本和存储空间上都很有效的光模型。在256-D表示的学习单网络在不进行微调的情况下,在各种面部基准测试中获得了最先进的结果。代码发布在https://github.com/AlfredXiangWu/LightCNN。

1 引言

  在过去的十年中,卷积神经网络(CNN)已经成为解决计算机视觉问题最流行的技术之一。大量的视觉任务,如图像分类[1],物体检测[2],人脸识别[3],[4],[5],[6],都受益于通过cnn学习的鲁棒的和有辨别能力的表示。结果,它们的性能得到了极大的提高,例如,在具有挑战性的野外标记人脸(LFW)基准进行测试时,其精度从97%[5]提高到99% [7],[8],[4]。这一改进主要得益于CNN可以从有大量对象的训练数据中学习到鲁棒的人脸嵌入。为了达到最优的准确率,CNN的训练数据集的规模一直在不断增大。一些大规模的人脸数据集已经被发布,例如CASIA-WebFace [6], CelebFaces+ [4], VGG face dataset[7], UMDFace [9], [10], MS-Celeb-1M[11]和VGGFace2数据集[12]。然而,这些大型数据集往往包含大量的噪声信号,特别是当它们是通过图像搜索引擎或电影自动收集。
  本文研究了一种从带有大量噪声标签的大规模数据中学习深度人脸表示的Light CNN框架。如图1所示,我们定义了一个Max-FeatureMap (MFM)操作,以获得一个紧凑的表示,并执行特征过滤器选择。MFM是ReLU在各层抑制低激活神经元的一种替代方法,可以认为是maxout激活的一种特殊实现[13]用于分离噪声信号和信息信号。我们的Light CNN架构包括MFM、小卷积滤波器和网络内网络,并在MSCeleb-1M数据集上进行训练。为了处理有噪声的标记图像,我们提出了一种语义自举方法,通过预先训练的深度网络自动重新标记训练数据。我们假设,通过给定相似的感知,模型能够始终如一地给出相同的预测。直觉上,太多的怀疑最初的训练标签可能导致错误的重新标记。因此,预测和原始标签之间的平衡是很重要的。大量的实验结果表明,在没有监督微调的情况下,提出的Light CNN在五个人脸基准上达到了最新的结果。这些贡献总结如下:
1)本文介绍了MFM操作,maxout的一种特殊情况,用于学习参数较少的Light CNN。与从训练数据中学习阈值的ReLU相比,MFM采用竞争关系,具有更好的泛化能力,适用于不同的数据分布。
2)设计了基于MFM的Light CNN,用于学习通用的人脸表示。我们分别按照AlexNet、VGG和ResNet的思路,提出了三种Light CNN模型。所提出的模型在速度和存储空间方面具有更好的性能。
3)提出了一种基于预训练深度网络的语义自举方法来处理大规模数据集中的带噪标记图像。不一致的标签可以通过预测的概率有效地检测出来,然后重新标记或去除训练。
4)提出的256-D表示的单一模型在不同的人脸基准上获得了最新的结果,即大规模的、基于视频的、跨年龄的人脸识别、异构的、跨视角的人脸识别数据集。与其他开源人脸模型相比,该模型包含的参数更少,提取人脸表示的速度更快。
在这里插入图片描述
  论文组织如下。第二部分简要回顾了人脸识别和噪声标记问题的相关研究。第三部分描述了所提出的Light CNN框架和语义自举方法。最后,我们在第四节给出了实验结果,并在第五节对本文进行了总结。

2 相关工作

A.基于人脸识别的CNN

  现代人脸识别方法通常将神经网络作为鲁棒的特征提取器。早些时候DeepFace[5]在440万张人脸图像上训练CNN,使用CNN作为特征提取器进行人脸验证。通过4096 - d特征向量,该算法在LFW上实现了97.35%的精度。作为DeepFace的扩展,Taigman等人[14]使用语义自举的方法从一个大数据集中选择一个高效的训练集。此外,还讨论了LFW中更稳定的[15]协议,更有代表性地表明了人脸特征的鲁棒性。为了进一步提高精度,Sun等[4]采用了
multi-patch集成模型。在不同的局部patch上训练由25个CNN模型组成的集合,并使用联合贝叶斯算法来获得鲁棒的嵌入空间。在[16]中,验证损失和分类损失进一步结合,增加类间距离,减少类内距离。集成模型在LFW上得到99.47%。
  在此基础上,FaceNet [8]将 triplet loss引入人脸识别中。FaceNet总共训练了大约100-200万张人脸图像,总共8百万个身份。由于triplet pairs的选择对于获得满意的精度很重要,FaceNet提出了一种在线triplet挖掘方法用于训练基于triplet的CNN,获得了良好的准确率(99.63%)。Parkhi等[7]对从互联网上采集的260万幅图像的2622个identity进行VGG网络[17]的训练,然后采用FaceNet等基于triplet的度量学习方法对模型进行调优,LFW的准确率达到98.95%。Tran等人[18]还提出了一种领域特定数据增强来增加训练数据,并在LFW上获得了类似的性能。
  人脸识别性能的提高主要得益于CNN和大规模的人脸数据集。然而,大规模数据集往往包含大量的噪声标签,特别是在自动从互联网上采集数据时。因此,从带有大量带噪标签的大规模人脸数据中学习一个Light CNN具有重要意义。

B.标签噪声问题

  当数据集趋于较大时,噪声标签是机器学习中的一个重要问题。一些[19]方法已用于处理噪声标记问题。这些方法一般可以分为三类。在第一类中,为分类任务设计了鲁棒损失[20],这意味着学习的分类模型对标签噪声的存在具有鲁棒性。:第二类[21]旨在通过识别错误标记的实例来提高训练数据的质量。第三类[22]直接模拟了学习过程中噪声标签的分布。这个分类的优点是它允许在学习过程中使用关于嘈杂标签的信息
  近年来,带噪标签数据的学习在深度学习中也引起了广泛的关注,因为深度学习是一种基于数据的学习方法,而精确标注标签的成本较高。Mnih和Hinton[23]引入了两个抗噪声标签航空图像的鲁棒损失函数。但是,他们的方法只适用于二值分类。Sukhbaatar等人[24]考虑了多类别分类来建模与类别相关的噪声分布。他们提出了一种自下而上的噪声模型来改变反向传播的标签概率输出,以及一种自上而下的模型来在输入数据之前改变有噪声的标签输出。此外,在知觉一致性的概念下,[25]的工作通过弱监督训练扩展了softmax损失函数。其思想是在现有模型的基础上动态更新预测目标函数的目标。他们使用训练标签和当前模型的预测的简单凸组合来生成训练目标。虽然已经研究了一些解决带噪声标签问题的策略,但大规模带噪声标签仍然是深度学习方法的一个未解决的问题。

3 架构

  在本节中,我们首先对CNN提出Max-Feature-Map操作来模拟神经抑制,从而产生一个新的Light CNN框架人脸分析和识别。在此基础上,提出了一种基于噪声标记的训练数据集的语义自举算法。

A.Max-Feature-Map

  大规模的人脸数据通常包含有噪声信号。如果这些噪声信号产生的误差处理不当,CNN会得到一个偏倚的结果。线性修正单元(ReLU)[26]激活通过阈值(或偏差)来分离噪声信号和信息信号,以确定一个神经元的激活。如果神经元不活跃,它的输出值将为0。但是,这个阈值可能会导致一些信息的丢失,特别是对于前几个卷积层, 因为这些层类似于Gabor滤波器(即。无论是积极的回应还是消极的回应都会受到尊重)。为了解决这一问题,漏出的线性修正单元(LReLU)[27],参数线性修正单元(PReLU)[28]和指数线性修正单元

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值