知识蒸馏论文翻译(4)—— Exclusivity-Consistency Regularized Knowledge Distillation for Face Recognition

知识蒸馏论文翻译(4)—— Exclusivity-Consistency Regularized Knowledge Distillation for Face Recognition

排他一致性正则化人脸识别知识提取


摘要

知识提取是一种有效的工具,可以将预先训练好的大型卷积神经网络(CNN)或其集合压缩成适用于移动和嵌入式设备的模型。其成功主要来自两个方面:设计的学生网络和开发的知识。然而,现有的方法往往存在移动级学生网络能力低和知识提取不理想的问题。在本文中,我们提出了一种新的位置感知排他性,以鼓励同一层的不同过滤器之间的巨大差异,从而缓解学生网络的低性能。此外,我们还研究了几种常用知识对人脸识别提取的影响,并得出结论:特征一致性知识比其他知识更灵活,保留的信息也更多。在各种人脸识别基准上的实验表明,我们的方法优于现有技术。

关键词:人脸识别;知识提炼;重量排他性;特征一致性

代码:http://www.cbsr.ia.ac.cn/users/xiaobowang/

一、介绍

卷积神经网络(CNN)在最近的先进人脸识别系统中取得了令人印象深刻的成功[47、24、12、13、53、45、48、44]。然而,性能优势是以培训和部署具有数百万个参数的资源密集型网络为代价的。随着人脸识别转向移动和嵌入式设备,大型CNN的计算成本使其无法部署到这些设备上。它推动了开发紧凑但仍有区别的模型的研究。提出了模型修剪、模型量化和知识提取等几个方向,使模型更小、更经济。其中,知识提炼正受到积极的研究。蒸馏过程旨在通过利用大型网络的konwledge或其集合(教师)作为监督来学习一个紧凑的网络(学生)。与其他压缩方法不同,它可以缩小网络规模,而不考虑教师和学生之间的结构差异。
图1
图1. 我们的排他性一致性规范化知识提炼概述。通过位置感知权重排他性和硬度感知特征一致性,用未标记的人脸数据训练目标学生网络。

对于人脸识别模型压缩,文献[16,40,51,26,19,52,18,35,9,10]多次尝试提取大型CNN,以使其部署更容易。Hinton等人[16]提出了第一种基于软化概率一致性的知识提取方法,在softmax函数中引入一个温度参数来揭示数据的相似结构。Wang等人[40]使用软化和一个热概率一致性知识进行人脸识别和对齐。Luo等人[31]提出了一种神经元选择方法,利用学习到的人脸表示的基本特征(领域知识)。Karlekar等人[19]同时利用一个热概率一致性和特征一致性来实现不同人脸分辨率之间的知识转移。Yan等人[52]利用一个热点的概率一致性来指导网络训练,并设计了一种递归的知识提炼策略来缓解教师和学生模型之间的差异。Peng等人[35]利用概率一致性知识不仅传递实例级信息,还传递实例之间的相关性。虽然现有的知识提取方法比直接训练移动级学生网络能取得更好的效果,但由于预定义学生网络的能力较低,以及知识的概率一致性不灵活,大多数方法都受到了限制。

在实践中,常见的困境是我们手头只有一个教师模型,而不知道它是如何训练的(包括训练集、教师的损失函数和训练策略等)。知识提炼的任务是从预先给定的老师那里提炼出一个移动级别的学生模型。然而,由于学生网络比教师网络小得多,因此通常表现不佳。此外,在这种困境下应该使用什么样的知识是一个悬而未决的问题。为了解决这些问题,本文提出了一种新的排他性一致性正则化知识蒸馏方法EC-KD,将权重排他性和特征一致性结合到一个人脸识别模型压缩框架中。图1显示了我们提出的EC-KD。综上所述,本文的贡献可以总结如下:

  • 我们提出了一种新的位置感知排他性正则化,以鼓励同一卷积层的不同滤波器之间的较大差异,从而缓解学生网络的低性能。
  • 我们研究了人脸识别模型提取的几种知识,并证明了特征一致性知识在人脸识别中比其他知识更灵活和强大。
  • 此外,为了更好地拟合教师知识,开发了一个硬度感知特征一致性术语我们在各种人脸识别基准上进行了广泛的实验,包括LFW[17]、CALFW[59]、CPLFW[60]、SLLFW[8]、AgeDB[32]、CFP[38]、RFW[43]、MegaFace[20]、万亿对[6]和爱奇艺视频[30],已经验证了我们的方法优于现有技术。

二、相关工作

知识提炼
自从Hinton等人[16]提出第一个基于软化类概率的知识提取以来,已经进行了许多研究。Romero等人[36]将教师网络的隐层响应作为学生网络改进知识提炼的提示。Zagoruyko和Komodakis等人[56]在教师网络中发现了激活神经元的区域,并将激活区域转移到了学生网络中。Luo等人[31]将顶层隐藏层作为知识,并使用属性选择重要神经元。Karlekar等人[19]同时利用一个热标签和特征向量来实现不同人脸分辨率之间的知识传递。Heo等人利用对抗性攻击来发现支持样本[14],并专注于转移隐藏神经元形成的激活边界[15],以进行知识蒸馏。一些研究[23,2,40,4,1,54]将知识蒸馏扩展到其他应用。

深度人脸识别
人脸识别是一个基本的开集度量学习问题,不同于闭集图像分类。具体而言,人脸识别通常由基于保证金的softmax损失[28,24,42,47,7,46]、度量学习损失[37]或两者监督,而不是传统的softmax损失[39]。此外,人脸识别中使用的训练集通常比图像分类具有更大的身份。为了获得更好的性能,通常会使用诸如ResNet[7]或AttentionNet[46]这样的大型CNN,这使得它们很难部署在移动和嵌入式设备上。一些工作[3,50]开始设计小型网络,但推理时间和性能之间的平衡并不令人满意,这促使我们使用知识提取工具进行进一步的模型压缩。

三、提出的方法

3.1权重排他性

众所周知,较大的CNN比较小的CNN具有更高的性能。对于人脸识别模型的压缩,这种现象更为明显。为此,我们需要采取一些措施来提高目标学生网络的能力。在本文中,我们试图利用不同过滤器之间的不同信息。为了实现这一点,提出了几种方法[29,27,5]。然而,它们都是值感知标准,需要规范化滤波器(固定幅度),这与权重衰减(动态幅度)相矛盾,因此可能无法很好地解决多样性问题。或者,我们定义一种新的位置感知排他性。具体来说,假设卷积层中的所有滤波器都是张量 W ∈ R N × M × K 1 × K 2 W\in \reals^{N\times M\times K_1\times K_2} WRN×M×K1×K2,其中N和M是滤波器和输入通道的数量,K1和K2分别是滤波器的空间高度和宽度。通常,K1=K2=K。假设张量 W ∈ R N × M × K 1 × K 2 W\in \reals^{N\times M\times K_1\times K_2} WRN×M×K1×K2为被重塑为向量 W ∈ R N × D W\in \reals^{N\times D} WRN×D,其中 D = M K 1 K 2 D=MK_1K_2 D=MK1K2。我们定义了一种新的多样性衡量标准,即排他性。

定义1。(权重排他性)两个过滤向量之间的排他性 w i ∈ R 1 × D w_i\in\reals^{1\times D} wiR1×D w j ∈ R 1 × D w_j\in\reals^{1\times D} wjR1×D定义为 H ( w i , w j ) : = ∥ w i ⊙ w j ∥ 0 = ∑ k = 1 D ( w i ( k ) ⋅ w j ( k ) ≠ 0 ) H(w_i,w_j):=\lVert w_i \odot w_j\rVert_0=\sum^D_{k=1}(w_i(k)\cdot w_j(k)\not =0) H(wi,wj):=wiwj0=k=1D(wi(k)wj(k)=0),其中 ⊙ \odot 操作表示阿达玛积(即元素积), ∥ ⋅ ∥ 0 \lVert \cdot \rVert_0 0表示“ ℓ 0 \ell_0 0-范数”。

从定义中,我们可以观察到,排他性鼓励两个滤波器向量尽可能多样化。理想情况下,如果 w i w_i wi(即 w i ( k ) w_i(k) wi(k))的位置k不等于零,则排他性条款鼓励 w j w_j wj(即 w j ( k ) w_j(k) wj(k))的相同位置k为零。换言之,来自不同过滤器的相同位置竞争生存,赢家位置设置为大值,而输家位置设置为零。因此,我们可以说,定义的排他性术语是位置感知的。与值感知正则化,如标准正交最小化正则化[29] ∥ W W T − I ∥ F 2 \lVert WW^T-I\rVert ^2_F WWTIF2和超球形多样性[27]相比,我们的位置感知排他性有以下两个优点:一个是,价值感知标准通常基于标准化权重(即通过设置 ∥ w i ∥ 2 2 = 1 \lVert w_i\rVert^2_2=1 wi22=1来固定大小),这与权重衰减(即通过调整权重范数来调整动态大小)相矛盾,因此在实践中可能无法很好地解决多样性问题。我们的位置意识排他性没有这样的限制。另一个是,我们的权重排他性可以无缝地融入传统的权重衰减(请参阅第3.3节)。然而,“ ℓ 0 \ell_0 0-范数”的非凸性和不连续性使我们的排他性难以优化。幸运的是,我们知道’ ℓ 1 \ell_1 1-范数是’ ℓ 0 \ell_0 0-范数[49]中最紧的凸松弛,因此我们有以下松弛排他性。

定义2。(宽松的权重排他性)两个过滤器 w i ∈ R 1 × D w_i\in\reals^{1\times D} wiR1×D w j ∈ R 1 × D w_j\in\reals^{1\times D} wjR1×D之间的宽松排他性定义为 H ( w i , w j ) : = ∥ w i ⊙ w j ∥ 1 = ∑ k = 1 D ∣ w i ( k ) ∣ ⋅ ∣ w j ( k ) ∣ H(w_i,w_j):=\lVert w_i \odot w_j\rVert_1=\sum^D_{k=1}\lvert w_i(k)\rvert\cdot\lvert w_j(k)\rvert H(wi,wj):=wiwj1=k=1Dwi(k)wj(k),其中 ∣ ⋅ ∣ \lvert\cdot\rvert 是绝对值。
因此,我们的最终重量排他性公式如下:
公式1

3.2 特征一致性

在人脸识别知识提炼中,常见的困境是我们手头只有一个教师模型,而不知道它是如何训练的(包括训练集、损失函数和训练策略等)。但是,我们的任务是获得一个性能令人满意的学生网络,并且可以应用于移动和嵌入式设备。因此,我们有以下情况:

一个热门标签。如果学生网络的训练集标记良好,我们可以直接用一个热标签训练目标学生网络。显然,这种方式没有利用老师的知识。

概率一致性(PC)。让我们将最终的softmax输出表示为z,教师模型T的软标签可以定义为 P T τ = s o f t m a x ( z T / τ ) P^\tau_T=softmax(z_T/\tau) PTτ=softmax(zT/τ),其中 τ \tau τ是温度参数。同样,学生网络S的软标签是 P S τ = s o f t m a x ( z S / τ ) P^\tau_S=softmax(z_S/\tau) PSτ=softmax(zS/τ)。流行的方法通常利用流行的概率一致性,如下所示:
公式2
其中 L L L P T τ P^\tau_T PTτ P S τ P^\tau_S PSτ之间的交叉熵损失。然而,由于教师和学生网络之间的潜在差异,PC的公式是不灵活的。
例如,(1)如果教师的培训课程不同于学生的培训课程,或者教师模型是通过度量学习损失(例如对比或三重损失)预先培训的,则无法计算 P T τ = s o f t m a x ( z T / τ ) P^\tau_T=softmax(z_T/\tau) PTτ=softmax(zT/τ)
(2)如果学生网络的训练集包含有噪声标签,则由于 P S τ = s o f t m a x ( z S / τ ) P^\tau_S=softmax(z_S/\tau) PSτ=softmax(zS/τ)不可靠,性能无法保证。综上所述,所有这些都表明:概率一致性知识对于人脸识别来说是不灵活和强大的。
功能一致性(FC)。在人脸识别中,我们也可以使用特征层作为提示来训练学生网络。特征一致性可表述如下:
公式3
其中 H H H L 2 L_2 L2损失, F S F_S FS F T F_T FT是学生和教师的特征。从公式中可以得出结论,FC对于培训是灵活的,因为它不受未知教师和目标学生之间差异的限制。此外,为了充分利用特征一致性知识,我们进一步开发了一种硬度感知的特征一致性知识。直觉上,对于远离老师的面部样本,应该强调它们。因此,我们定义了一个重新加权的softmax函数, s i = e H i ∑ j = 1 m e H j s_i=\frac{e^{H_i}}{\sum^m_{j=1}e^{H_j}} si=j=1meHjeHi,其中m是批量大小,我们的硬度感知特征一致性简单地表示为:
公式4

3.3 排他性一致性规范化知识提炼

基于以上分析,我们倾向于同时利用权重排他性和特征一致性,即公式(1)和(4),加上重量衰减,我们最终的排他性一致性正则化知识蒸馏(EC-KD):
公式5
其中 λ 1 \lambda_1 λ1 λ 2 \lambda_2 λ2是折衷参数。通常,权重衰减是规范化过滤器规范的一元成本,而权重排他性是促进过滤器方向的成对成本。因此,它们是相辅相成的。为了简单起见,我们根据经验设置 λ 2 = 2 λ 1 \lambda_2=2\lambda_1 λ2=2λ1。因此,重量衰减和重量排他性可以无缝地表示为 Φ ( W ) : = \Phi(W):= Φ(W):=
公式6
从式(6)中可以看出,它可以分解为一组较小的问题。对于W中的每一列 w ⋅ k w_{\cdot k} wk,根据[21], Φ ( W ) \Phi(W) Φ(W)相对于 w ⋅ k w_{\cdot k} wk的梯度计算如下:
公式7
其中 ϵ → 0 + \epsilon\to0^+ ϵ0+(一个小常数)以避免分母为零。由于 g ⋅ k g_{\cdot k} gk w ⋅ k w_{\cdot k} wk都依赖于,我们采用了一种有效的重新加权算法来迭代更新和。在每次迭代中,对于正向,我们计算重新加权矩阵 G = [ g ⋅ 1 , . . . , g ⋅ D ] ∈ R N × D G=[g_{\cdot 1},...,g_{\cdot D}]\in\reals^{N\times D} G=[g1,...,gD]RN×D,而对于向后,我们使用梯度更新权重 ∂ ϕ ( W ) ∂ W = G ⊙ W \frac{\partial\phi(W)}{\partial W}=G\odot W Wϕ(W)=GW。为了清晰起见,我们框架的整个方案在算法1中进行了总结。
在这里插入图片描述

四、实验

4.1 数据集

训练集 。除非另有规定,我们使用CASIA WebFace[55]作为学生模型的训练集。具体来说,我们使用的是公开的。

测试集 。我们使用了十个人脸识别基准测试集,包括LFW[17]、CALFW[59]、CPLFW[60]、SLLFW[8]、AgeDB[32]、CFP[38]、RFW[43]、MegaFace[20,33]、万亿对[6]和爱奇艺视频[30]作为测试集。LFW包含来自5749个不同身份的13233张网络收集的图片。CALFW[59]是通过众包活动收集的,目的是在互联网上寻找年龄差距尽可能大的LFW人群的照片。CPLFW[60]与CALFW类似,但从姿势差异的角度来看。SLLFW[8]从原始LFW图像集合中选择3000个外观相似的负面人脸对。AgeDB[32]包含带有精确到年份、无噪音标签的注释图像。CFP[38]由收集的名人正面和侧面照片组成。RFW[43]是衡量种族偏见的基准,由四个测试子集组成,即高加索、印度、亚洲和非洲。MegaFace[33]旨在评估百万级干扰源下的人脸识别性能。万亿对[6]是一个基准测试人脸识别性能与万亿规模的干扰。爱奇艺视频[30]包含来自爱奇艺综艺节目、电影和电视剧的多个视频片段。

数据集重叠移除。在人脸识别中,执行开放集评估非常重要[28,42,7],即训练集和测试集之间不应存在重叠身份。为此,我们需要小心地去除所使用的训练集和测试集之间的重叠身份。对于重叠身份删除工具,我们使用[42]提供的公开脚本来检查两个名字是否属于同一个人。因此,我们从CASIA WebFace的训练集中删除了766个身份。为清楚起见,我们将改进的训练集表示为CASIA-WebFace-R。表1总结了数据集的重要统计数据。严格来说,本文中的所有实验都是基于改进的训练数据集。

4.2 实验设置

数据处理。我们采用Facebox检测器[58,57]检测人脸,并通过一个简单的6层CNN[11]定位五个地标(两只眼睛、鼻尖和两个嘴角)。对检测到的面进行裁剪并调整大小为144×144,RGB图像中的每个像素(范围在[0255]之间)通过减去127进行归一化。5除以128。对于所有的训练面,它们以0.5的概率进行水平翻转实现数据扩充。

接受过培训的教师 。人脸识别有多种网络结构[28,3,41]和几种丢失函数[7,46]。在不丧失一般性的情况下,我们使用SEResNet50 IR[7]作为教师模型,该模型由SV AMSoftmax loss[46]训练。对于本文中的所有实验,老师都是预先给定的,而且是固定不变的。在这里,我们向竞争对手KD[16]、FitNet[36]、AB[15]、BBS[14]和ONE[22]提供了有关教师的详细信息。

学生 。我们使用MobileFaceNet[3]及其变体作为学生模型。学生的特征维度为512。

训练 。所有学生模型都是从头开始训练的,批量大小为256,在4个P40 GPU上并行运行。本文中的所有实验均由Pytork[34]实现。根据经验,权重衰减λ1设置为0.0005,动量为0.9。学习率最初为0.1除以10,在9,18,26个阶段,我们在30个阶段完成训练过程。

测试 。我们使用学习过的学生网络来提取人脸特征。对于评估指标,使用了余弦相似性。我们遵循无限制的外部数据协议[17],报告LFW、CALFW、CPLFW、SLLFW、AgeDB、CFP和RFW的性能。此外,我们还报道了BLUFR(TPR@FAR=1e-4)LFW上的协议[25]。在Megaface和万亿对上,人脸识别和验证都是通过对分数进行排序和阈值化来进行的。具体而言,对于人脸识别(Id),采用累积匹配特征(CMC)曲线来评估秩1精度。对于人脸验证(Veri.),采用了不同虚警率下的接收机工作特性(ROC)曲线。在爱奇艺视频上MAP@100作为评价指标。MAP(Mean Average Precision)是指测试集中检索到的每个人ID(作为查询)的视频在训练集中的平均准确率。

4.3 消融研究和探索性实验

功能一致性与其他知识。在这一部分中,我们使用MobileFaceNet[3]作为学生网络。对于采用的知识,我们将软化概率一致性(PC)(即公式(2))、特征一致性(FC)(即公式(3))及其组合与基于softmax的损失进行比较[46]。
表2
表2中的结果表明,仅仅使用软化概率一致性知识是不够的。它应该与基于softmax的损耗(one hot labels)相结合,以实现令人满意的性能。而简单的特征一致性知识可以获得更高的性能,这表明它比概率一致性保留了更多的信息。我们还观察到,将特征一致性知识与基于softmax的损失相结合的改进是有限的。此外,从硬度感知特征一致性(HFC)的结果可以看出,应该强调特征一致性知识。

过滤器数量的影响。我们进一步评估了不同过滤器数量下的特征一致性知识。具体来说,我们将学生网络(即MobileFaceNet)中所有卷积层的过滤器数量更改为大小的2倍、1/2倍、1/4倍和1/8倍。性能如表3所示,从中我们可以得出结论,较小的网络通常表现出较低的人脸识别能力。为了在不同因素之间取得良好的平衡,除非另有规定,我们在以下实验中使用(1/2)MobileFaceNet作为学生网络。

位置意识的排他性与价值意识的规范化。促进正交性[29]或最小超球面能量(MHE)[27]在过滤器中一直是鼓励多样性的流行选择。然而,他们对归一化权重的假设是有限的,通常会导致非常缓慢的收敛。从表4中的值中,我们可以看出,控制滤波器范数的权重衰减(例如wd=5e-4 vs.wd=0)是不可忽略的。此外,确定滤波器方向的多样性也很重要。实验表明,我们的位置感知排他性可以实现更好的多样性,并且比以前的值感知正则化具有更高的性能。

汇聚 。对于我们的EC-KD方法,我们交替地更新重加权矩阵G和滤波器W。具体地说,我们向前计算重加权矩阵G,向后更新滤波器W,这与标准的随机梯度下降(SGD)算法不同。虽然我们的方法的收敛性不容易从理论上进行分析,但可以直观地看到它的经验行为。在这里,我们给出了损失随年代数增加而变化的情况。从图2左边的曲线可以看出,我们的方法在各种模型下都具有良好的收敛性。此外,我们还可以观察到,较小的网络容量较低,其损耗值通常高于较大的网络。

数据大小的影响。由于学生网络的训练集可以取消标记,我们在EC-KD算法中使用不同百分比的未标记训练数据来评估性能增益。为训练目标学生网络,随机出现各种百分比(从10%到100%,步骤10%)的未标记数据。从图2右侧的曲线可以看出,在开始时,MegaFace上的性能随着未标记数据量的增加而提高,但当数据百分比足够大时,这种改善是很小的。因此,我们得出结论,我们的方法可以受益于小规模的训练集,从而可以减少训练时间。
噪音标签的影响。为了验证我们的方法在学生网络的训练集包含噪声标签的情况下的鲁棒性,在本实验中,我们使用具有不同合成噪声率的训练集CASIA-WebFace-R来训练学生网络。对称噪声是通过在所有类别中随机选择概率相等的标签来产生的[45]。从表5中的值可以看出,概率一致性方法KD[16]对噪声率非常敏感。随着噪声率的增加,其性能急剧下降。而我们的方法可以在不考虑噪声率的情况下保证性能。这背后的原因是,由于概率一致性的知识,大多数现有的知识提取方法都依赖于标记良好的训练集。我们的EC-KD方法具有一致性,不需要标签。因此,我们的方法对训练集中存在的噪声标签不敏感。

泛化能力 。实际上,很难知道教师网络是如何预先培训的。更常见的情况是,我们手头只有教师模型。在这种情况下,我们可能会面临学生的培训集与教师的培训集不同的情况。例如,教师通过CASIAWebFace-R数据集进行预培训,但我们只能获得一个新的数据集(例如,爱奇艺视频培训[30])来培训目标学生网络。如表6所示,可以看出,从头开始直接培训学生网络(即,(1/2)MobileFaceNet)很难提高性能。由于教师和学生的培训课程不同,KD等现有的知识提炼方法无法训练学生网络。相比之下,我们的EC-KD方法不仅可以用于训练学生网络,还可以用于有效地传递有用的知识并获得更高的性能。
表3
表4
图2
表5
表6

4.4 与最先进方法比较

五、结论

在本文中,我们开发了一种新的多样性度量方法,即排他性,以改善学生网络的低能力。与权重衰减不同,权重衰减是规范化过滤器规范的一元成本,我们的权重排他性是促进过滤器方向的成对成本。因此,这两个分支是相辅相成的。此外,我们还证明了特征一致性知识在人脸识别中比其他知识更灵活,保留了更多的信息。将重量排他性和硬度感知特征一致性结合在一起,产生了一种新的知识提炼,即EC-KD。在各种人脸识别基准上的大量实验验证了该方法的有效性和泛化能力。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值