论文地址
摘要:提出了一种通用学习框架,可处理给定训练数据中看不到的较大变化,而无需利用目标领域知识。首先综合训练数据和一些语义上有意义的变化,如低分辨率,遮挡和头部姿势。由于直接将这些新增的数据送入训练框架将很难收敛,因为大多数据是难样本。提出将特征嵌入分成几个子嵌入,在训练过程中,为每个子嵌入关联不同置信值。通过对不同分区上的变异分类损失和变异对抗性损失进行正则化,进一步去关联子嵌入。
主要贡献:
- 一种人脸表示学习框架,通过将它们与不同的变体相关联来学习通用的特征,从而改进了对不同测试数据集的泛化。
- 基于置信感知的识别损失,利用训练过程中样本置信度,从难样本中学习特征。
- 一种特征去关联正则化方法,在子嵌入的不同分区上同时应用变异分类损失和变异对抗性损失,提高了性能。
- 有效结合合成数据的训练策略,训练出适用于原始分布之外图像的人脸表示。
相关工作:
与以往方法的不同之处主要有两点:
- 学习相似度度量的方法,而不是用于检测或分类任务。
- 与模型无关。通过计算未见类的样本之间的两两相似度,通过本文的模型学习到的特征可以直接应用到不同的领域。
实现
概括说明:
- 首先引入三种可增强的变化:模糊、遮挡和姿态,以增强训练数据。
- confidence-aware identification loss:学习难样本
- 将特征向量分解为独立置信度的子嵌入
- 提出了一种非可扩充的变异方法,以探索更多的变异来获得更好的去相关。
- 提出了一种不确定引导的成对度量用于推理。
详细:
1. Confidence-aware Identification Loss:
被分类为身份的后验概率。
:输入样本
:第
个样本的特征嵌入
:第
个身份原型向量
:概率嵌入网络,将每个样本
都看做一个高斯分布
在特征空间,是第
类样本的概率:
D:特征维度
假设分配每一个样本给任何身份的先验相等,xi为第j
类的后验概率:
,对
和
进行L2归一化,则式(4)中,
,代入
,得
,:
方程(5)的自信感知后验器效果如下图所示:
假设所有样本都具有相同置信度,那么学习到的原型就会位于所有样本中心(上图a所示)。这并不合理,因为低质量样本传达的身份信息更加模糊。相反,如果设置样本特性置信度,高质量样本的置信度更高,它会促使原型
与高质量样本更加相似,从而使后验最大化。同时,在更新嵌入
时,更有力推动了低质量
向原型靠拢。
添加边界损失能有效缩小身份内分布:
:样本
的gt label
该损失函数优势:
每张图有其独立、动态的而不是一个共享的常量
边界参数m不是与相乘,
的独立性使它可以在网络训练中以特定样本的方式对
和
的梯度信号进行门控,因为训练样本的置信度(变异程度)会有较大的差异。虽然样本是特定的,但是我们的目标是追求一个齐次的特征空间,使得跨不同的恒等式的度量是一致的。
2.Confidence-aware Sub-Embeddings:
问题:
尽管通过特定样本门控学习
可以处理样本间的变化,但是
本身的相关性仍然很大。为了最大化表示能力和实现紧凑的特征大小,必须对嵌入的条目进行去相关。进一步将整个嵌入
分解为分区的子嵌入,每个子嵌入进一步被分配一个标量置信度。
做法:
将整个特征嵌入划分为K个等长子嵌入,同样,原型向量
和置信标量
被分为相同大小的K组:
每个子嵌入都进行L2归一化到一个单位球面,最终的识别损失为:
增加了一个额外的l2正则化来限制置信值不会任意增大:
3. Sub-Embeddings Decorrelation:
问题:
只设置多个子嵌入不能保证不同组的特征是学习互补信息。如果用不同的正则化方法对子嵌入进行惩罚,可以降低子嵌入之间的相关性。
做法:
将不同的子嵌入与不同的变异关联起来,对所有子嵌入的一个子集进行变异分类损失,同时对其他变异类型进行变异对抗性损失。在多个变量的情况下,这两个正则化项被强制放在不同子集,从而得到更好的子嵌入去相关性。
对每个增加的变化,生成一个对应的二值mask:
,它随机选择所有子嵌入里的K/2子集,同时将另一半置零。对不同的变化,mask不同。
反映第t个变化,但对其它变量不变。建立一个多标签二值判别器C,通过从每个mask子集学习预测所有的变化。
判别损失:
是已知变化的二值labels(0/1),
是真值标签
嵌入网络的分类和对抗性损失:
分类所示限制了成为变异的特异性,对抗损失限制了其他变异的不变性。只要没有两个mask是相同的,就能保证所选子集
在功能上不同于其它'
,从而实现了
和'
的去相关。最终Loss:
4. 挖掘更多变化:
问题:
可扩充遍历的有限数目(我们的方法中为3)导致去相关效应有限,因为数目太小。
为进一步增强去相关性,以及引入更多的变异以提高泛化能力,目标是探索更多的语义变异。
此外,并不是所有的变异都容易进行数据扩增,比如微笑或不笑就很难扩增。对于这种变异,我们尝试从原始训练数据中挖掘出变异标签
做法:
利用现成的属性数据集,训练一个具有身份对抗损失的属性分类模型:
:属性label
:身份label
:输入人脸图像
:CelebA数据集中身份数量
第一项对特征进行惩罚以分类面部属性,第二项对特征进行惩罚使其对身份不变。
然后将属性分类器应用到识别训练集中,生成T个新的软变异标签,比如笑或不笑。这些额外变化的二进制标签与原始的可增加的变化标签合并,然后纳入去相关学习框架:
5. 不确定性引导概率聚合:
问题:
考虑到推理的度量,简单地取学习的子嵌入的平均值是次优的。因为不同的子嵌入对不同的变异表现出不同的辨别能力,它们的重要性应该根据给定的图像对而变化。
做法:
应用与每个嵌入相关的不确定性来获得两两的相似度评分:
总结:
提出了一种通用的人脸表示学习框架,用于识别各种变化下的人脸。首先通过数据扩充,在MS-Celeb-1M训练集中引入三种可命名的变化。传统方法在直接将增加的难例输入训练时,会遇到收敛问题。提出一种自信感知的表示学习方法,通过将嵌入划分为多个子嵌入,并放宽对样本和子嵌入的专一性。进一步提出变异分类和变异对抗性损失,以解关联子嵌入。利用不确定性模型进行推理,对子嵌入进行正确的聚合。