【论文阅读】Improving Face Recognition from Hard Samples via Distribution Distillation Loss

论文地址
代码地址

参考的文章:
其他的博客:主要是翻译
知乎的介绍
ArcFace算法笔记

Abstract

目前基于深度学习的人脸识别算法已经可以较好的处理简单样本,但对于困难样本(低分辨率、大姿态等)仍表现不佳。目前主要有两种方式尝试解决这一问题。第一种方法是充分利用某种需要处理的人脸畸变的先验信息,设计特定的结构或损失函数。这种方式通常不能方便地迁移到其他畸变类型。第二种方法是通过设计合适的损失函数,减小类内距离,增大类间距离,得到更具辨别能力的人脸特征。这种方式一般在简单和困难样本上存在明显的性能差异。为了提升人脸识别模型在困难样本上的性能,这篇论文提出了一种基于分布蒸馏的损失函数

具体来说,我们首先通过一个预训练的识别模型构造两种相似度分布(从简单样本构造的Teacher分布和从困难样本的Student分布),
然后通过分布蒸馏损失函数使Student分布靠近Teacher分布,从而减小Student分布中的同人样本和非同人样本的相似度重合区域,提高困难样本的识别性能。

我们在常用的大规模人脸测试集和多个包含不同畸变类型(人种、分辨率、姿态)的人脸测试集上进行了充分的实验,验证了方法的有效性。

  • 构造相同的分布:教师和学生、仅仅是分类简单和困难样本是可以的 但是分布如何进行分开 有待研究
  • 新的分类驱动损失:约束学生和教师的关系

Introduction

变化特征大的为hard samples 一般有两种方法处理这些:variation-specific and generic methods
variation-specific :专门设计的方法针对一个难点 分辨率或者光照—
generic methods: softmax and triplet loss
propose: DDL 能够提升难样本的识别 similarity distribution distillation loss
以现有的分类器作为baseline构建教师之间的初始相似度分布和学生的难样本
充分利用硬样本挖掘,直接对相似度分布进行优化,提高硬样本的性能
主要是解决各种比较大的变化
如图1所示,ArcFace在easy examples上表现出两个距离分布overlap小,但是在hard examples上,两个距离overlap还是很大

  • 也就是难的样本可分性比较差
    在这里插入图片描述

related work

Loss Function in FR

center loss 可以减少类内的距离
angular margin-based losses 促进特征的可分性 ,学习到的特征之间的角/余弦可分性更大
新损失约束学生分布来近似教师分布,从而缩小了容易样本和难样本之间的性能差距

  • (我应该去考虑同一个车之间的分布,或者简单和难样本的分布有什么不同,怎么才能有比较好的可分性)

Variation-Specific FR

一种常见的方法是为LR和HR图像学习统一的特征空间
super resolution to enhance the facial identity information.

Knowledge Distillation

它的基本思想是从一个大的教师模型中提取知识到一个小的模型,通过学习教师通过softmax提供的分类分布
最近,有人提出将数据示例的相互关系从教师传递给学生。特别是,RKD:当学生和老师有相同的结构,KD可以提高原来的表现。(数据之间的关系和相同结构的时候可以提高原来模型的表现)

our

  1. KD has at least two networks, a teacher and a student,我们只学习一个网络
  2. KD采用样本向、欧氏距离向或角度向的约束,而DDL提出了一种新的余弦相似度分布向的约束

The Proposed Method

训练集两部分:简单样本和难样本 形成两个分布
为了确保良好的教师分布,我们使用SotA FR模型[6]作为初始化。 (这部分我怎么用呢?)、

  • 提取的特征用来构造positive and negative pairs
  • 用他们估计相似度。(这种积极和不积极的对是不是可以用三元组损失构造)
  • 利用相似度分布,采用DDL分类器进行训练

Sampling Strategy from P ε P_\varepsilon Pε and P H P_H PH

b个positive pairs : 2b个样本 id不同的样本 b : (b+2b)*2=6b
在这里插入图片描述

Positive Pairs

正对预先离线构造,每对由两个同一id相同的样本组成。一个正样本对之间的相似度如公式1所示。
相似度小于0的正对通常是离群值,在实际设置中会删除这些离群值,因为我们的主要目标不是专门处理噪声了这部分数据。
(一般删除了离群值,针对离群值,之前用co-teaching 方法进行整合)
x posi1和xposi2是一个正对的样本
在这里插入图片描述

Negative Pairs

与正对不同的是,我们通过硬负挖掘从不同身份的样本中在线构造负对,选择相似度最大的负对。具体地说,负对s -的相似性定义为
在这里插入图片描述
一旦构造了正对和负对的相似性,就可以估计出相应的分布,这将在下一小节进行描述

Similarity Distribution Estimation

相似度分布估计 的过程与Histogram Loss相似,它是用一维直方图进行的,用一个简单的、分段可微的方式进行的,软分配[37],采用简单的分段可微的方式进行。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Let p+ and p− denote the two probability distributions of S+ and S−, respectively 我们通过用均匀间隔的bin拟合简单直方图来估计这种一维分布。We adopt R-dimensional histograms H+and H−, with the nodes t1 = −1, t2, · · ·, tR = 1 uniformly filling [−1, 1] with the step 4 = R−2 1. Then, we estimate the value h+ r of the histogram H+ at each bin as:
在这里插入图片描述
在这里插入图片描述
通过指数函数获得 δ代表的是高斯核函数的spread parameter,t_r代表的是histograms的第 r 个node。选用高斯核函数是因为其对于小sample size的密度估计更加鲁棒.由于高斯核函数是密度估计中最常用的核函数,而且对小样本容量具有较强的鲁棒性,因此本文采用高斯核函数。对H -的估计也是类似的.

Distribution Distillation Loss

我们利用[6]等SotA人脸识别引擎,从易样本和难样本两类样本中得到相似度分布。这里,简单样本表明,FR引擎表现良好,在正面和负面的相似性分布对显然是分离(见图4中的教师分布),而硬样本表明,FR引擎执行不佳,相似的分布可能是高度重叠的(参见图4中的学生分布)。
利用SotA人脸识别引擎,从两种样本中获得相似分布:简单样本和难样本。在这里,简单样本表明FR引擎表现良好,其中正对和负对的相似性分布被清楚地分离(见上图中的教师分布),虽然难样本表明FR引擎性能差,其中相似分布可能高度重叠(见上图中的学生分布)

KL Divergence Loss

为了缩小易样本与难样本之间的性能差距,我们对难样本的相似度分布(即(学生分布)来近似容易样本的相似度分布(即。老师分配)
教师分布由正对和负对的相似度分布组成,分别为P +和P−。同样,学生分布也由两个相似度分布组成,分别为Q+和Q−。受之前KD方法的启发[12,53],我们采用KL发散来约束学生和教师分布的相似性,定义如下
在这里插入图片描述

Order Loss

但是,仅仅使用KLloss并不能保证良好的性能。事实上,教师分布可能选择接近学生分布,导致正对和负对分布之间的更多混淆区域,这与论文的目标相反(见上图)。

  • 反向学习,会导致教师去学学生的分布

为了解决这个问题,我们设计了一个简单而有效的term,名order损失,它最小化了从负对到正对的相似分布期望之间的距离,以控制重叠。我们的order损失可以计算如下
在这里插入图片描述
式中,S+ p和Sp−表示教师分布的正对和负对的相似性;Sq+和Sq−表示学生分布的正对和负对的相似性;其中,权重参数为lambda3:

综上所述,我们的分布蒸馏损失的整个公式为: L_DDL = LKL + Lorder。DDL可以很容易地扩展到不同的学生分布,从一个特定的变化如下:
在这里插入图片描述
K是学生分布的个数。此外,为了保持在易样本上的性能,我们加入Arcface[6]的损失函数,因此最终损失为(8),上文。

Generalization on Various Variations

Observation from Different Variations

我们的方法假设从训练数据的一个子集计算出的两个或多个分布之间存在差异,这是人脸识别中常见的现象,如图5所示。除了在VGGFace2上训练的CFP外,在CASIA上训练的Arcface[6]正态样本和挑战性样本的相似度分布。
如我们所见,1)由于CASIA偏向于白种人, 蒙古样本在考克斯更困难,因此相对视为硬样品,2)不同共享一个共同的观察,挑战性的样本的相似性分布通常不同于简单的样品,3)变化与不同区段可能有不同的相似性分布(例如,H1和H2在图5 ©)。综上所述,当一个任务满足简单样本和困难样本之间的相似度分布不同时, 我们的方法是一个很好的解决方案,通过正确构造正对和负对,可以享受性能的改进,这在第4.3节中得到了验证。

Performance Balance Between Easy and Hard Samples

在保持简单样本性能的同时提高硬样本的性能是一种权衡。我们的方法中有两个因素有助于在简单示例上保持性能。首先,我们加入了SotA Arcface损失[6],以保持对简单样本的 特征识别能力 。其次,我们的 order损失 最小化了从负对和正对得到的相似分布期望之间的距离,这有助于控制正对和负对之间的重叠。

Discussions on Mixture Variations.

如Eq. 7所示,我们的方法可以很容易地扩展到针对一个任务的多种变化(例如,低分辨率,大姿态等)。另一种选择是将不同程度的变化从一个任务混合到一个学生分布中,如4.2节所示,这不足以具体地模拟不同的程度,并往往导致较低的表现。针对不同任务的差异,也可以构建多个师生分布对,分别处理相应的任务,这是一个很好的未来方向。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值