paper6:Towards Pose Invariant Face Recognition in the Wild 2018CVPR

Towards Pose Invariant Face Recognition in the Wild
面向姿态不变的人脸识别 2018CVPR
一.摘要
背景:

  • 野外拍摄的人脸大多受极端姿态,光照差,表情大等因素影响。其中,姿态变化对于人脸识别性能的影响最大。
  • 当前的姿态不变识别技术一种是直接提取姿态不变特征,一种是提取特征之前将人脸正面化再进行识别。基于此,本文认为将这两方面共同执行将会更理想
  • Problem:一张真实的正脸image对于表现人脸feature非常重要,一个自然的策略就是从任意pose face image中generate这个参考face。因为卷积滤波器通常在所有空间位置上共享,仅仅使用single-path生成器不能够学习绘制旋转人脸结构和精确恢复局部纹理。
    Solve:提出dual-path generator

本文的创新点:

  1. 提出了一种用于在野外实现人脸识别的姿态不变模型PIM。以一种相互促进的方式将人脸正面化和识别统一起来。
  2. PIM是一种新颖的统一的深层体系结构,它包含人脸正面化网络FFN和识别网络DLN,这两个网络端到端共同学习。
  3. FFN是dual-path GAN 同时感知全局结构和局部细节,结合了无监督cross-domain 对抗训练,在判别阶段使用learning to learn 的策略用于高保真和身份保留的正面face合成。
  4. DLN是通用的用于人脸识别的CNN,用cross-entropy 优化策略用于分类学习和生成特征表示。
  5. PIM将任意姿态的face image(具有其他潜在干扰因素,光照或表情)作为input
    Output 不变的人脸表示来构成变化同时保持不同身份之间的区别。
  6. 在受控基准和野外基准上的定性和定量实验表明,该模型优于现有模型。
    二.介绍
    生物识别方式:最近的研究发现,人类大脑有一个面部处理神经系统,有几个相连的区域组成,其中一些区域的神经元执行面部归一化(侧脸到正脸),其他的区域被调整去识别合成的正面人脸,使人脸对姿态变化具有鲁棒性。受灵长类大脑这一有趣的功能启发我们develop一种新的统一的network PIM,联合学习人脸正面化和端到端判别表示。
    正面face合成的方法:
  • TP-GAN:考虑真实感和身份保留正面image合成
  • DR-GAN:在一个统一的网络里,考虑了人脸的正面化和表示学习
  • PIM:PIM的目标是联合学习人脸正面化和姿态不变表示端对端的使他们相互促进,解决在无约束人脸识别中大姿态变化的问题,TP-GAN 只是尝试从侧面image中恢复正面image.
  • TP-GAN 和DR-GAN 泛化能力差,优化难度大,限制了它们在无约束人脸识别中的有效性,当引入了无监督的cross-domain对抗性训练,PIM结构有效的克服了这些问题,learning to learn 策略使用Siamese判别器和动态卷积,cross-entropy优化策略。

Loss function:
总的损失函数:
在这里插入图片描述
Labv:增加合成image的真实性
在这里插入图片描述
Lece:促进cross-entropy loss来保存身份信息
在这里插入图片描述
Ldomain:促进编码器编码的时候将有效信息全部编码,以实现在原图像和合成图像之间的转换没有区别,以促进正面化网络的泛化性和减少过拟合。
cross-domain adversarial loss 定义为:
在这里插入图片描述
yi表示来自哪个domain的image
I0domain来自原图像 I1domain来自生成图像 ri表示通过生成器编码的特征表示。
当y=0时,表示分类来自原图像编码器的表示
当y=1时,表示分类来自合成图像编码器的表示
最小化Ldomain 可以减少domain差异,帮助生成器跨越不同的domain实现相似的人脸正面化性能。即便是来自真实人脸domain的训练样本是有限的。
Ldomain的作用就是在有限的训练样本中实现最好的性能。

本文的cross-domain迁移学习方面的方法:
领域自适应:将source domain和target domain映射到统一的空间,通过最小化一定的约束学习映射。选择对抗性的loss function,使用一个domain 二分类器,如简单的全连接神经网络,将获取的特征进行分类,然后定义一个domain confusing loss。通过优化特征提取让该domain 二分类器分辨不出他们。
在这里插入图片描述
Lpixel:增强多尺度图像内容的一致性。计算最后正面face image和相应的ground truth 的像素损失。
Lsym:用于恢复自遮挡问题。对恢复的正面image施加对称性约束以缓解自遮挡问题
在这里插入图片描述

Ltv:减少生成image的伪影
在这里插入图片描述

Discriminative learning sub-net
DLN是用于人脸识别的generic CNN,由enforce cross-entropy 优化策略训练,这个策略,减少类内距离,增大类间差距。
Input:合成的正面face
Output:学习到的姿态不变的面部表示
将DLN的全连接层的最后一列的权重作为anchor vector a,代表每个身份在特征空间的中心,当特征向量距离(cosine metric)相同时,可以得到决策边界,每个类可以聚类。对于接近决策边界的样本,可以有较高的可信度进行错误分类。一种简单而有效的解决方法是在增加特征向量类间距离的同时减小类内距离,通过该方法对hard sample在正确的决策区域进行调整和重新分配。提出将选择衰减因子作为置信度评分中:
在这里插入图片描述
Pi为预测的置信分数
在这里插入图片描述
结构:
在这里插入图片描述
FFN:这部分结构和TP-GAN的结构非常相似
local pathway:输入一张侧脸图像,通过人脸检测标记出坐标,按照设置好的像素块的大小将左眼,右眼,鼻子,嘴巴抠出来。然后经过局部生成器的编码阶段,在生成器的全连接层,将特征图和高斯随机噪声融合。融合后的特征分为两个branch,一个branch进入解码阶段。另一个branch,加入几层和encode相同的layer作为domain 分类器,将获取的特征进行分类,然后计算损失,反向传播给encode,促使encode具有更好的性能将提取的特征作为decode的code。生成模型很重要的部分是code,如果code能包含更全面的信息,则生成出的image将会更准确。decode之后,将四个标记块分别进行维度扩展,然后融合为一张图片。local pathway 注重学习局部纹理。
global pathway:将整幅图像进行人脸检测不分块,直接encode-decode,中间的反向梯度和local的一样。global pathway 注重学习脸部轮廓。将合成的face image 先进行Ltv损失,进行去除伪影,然后进行Lsym进行对称损失,减少自遮挡带来的影响。最后和grour-truth一起计算像素损失,以保证多尺度下图像内容的一致性。
FFN的判别部分:
在这里插入图片描述
Dynamic convolutional discriminator :
GAN网络中的判别器,通常用来缩小合成图像与真实图像分布的差距。
问题来源:由于侧脸情况下的训练样本太少,需要开发一种高效样本鉴别器。
解决方法:使用learning to learn策略,使用动态卷积的Siamese对抗pari-wise 判别器。这个Siamese实现一个成对的训练方案,其中有来自生成器的两个合成的正面化face,和有相同身份的同一个人的两个不同的正面face组成。
和传统的一个支路的判别器不同,本文构造了两个branch
DL(learner)动态的预测单个样本中第一个branch的合适的卷积参数
DM在DM中考虑一个特定的卷积层
给一个input Tensor (从先前的layer中得到的feature map)为Xin,卷积权重W,卷积层的output为Xout ,Xout=W*Xin *卷积操作
执行一个SVDoperation,
在这里插入图片描述
W在这里插入图片描述是由DL预测的动态卷积核 *cin表示cin通道的独立卷积。
通过DL学习的参数数量明显减少在这里插入图片描述
允许它们只随输入特征映射通道的数量线性增长。

利用和global-path 编码器相同的结构作为DM和DL ,单独学习不共享权重。
来自DW和DL的feature map 进一步连接fed进全连接层计算Ladv。它作为一种监督,将合成的图像推送到真实感正面视图图像的流形中,防止模糊效果,产生视觉愉悦的效果。
总结:PIM和TP-GAN 大体上相似,只在于优化细节上有不同。
PIM增加了cross-domain 作为一个反向梯度传播,用在encode部分,用来监督encode特征的提取。
在判别器阶段,用了两个分支,另外一个branch的作用 我没看懂 !!!
在识别阶段,用一个损失函数来促进cross-entropy
个人感觉,PIM只是TP-GNA的优化版本,文章写得挺晦涩难懂。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值