Residual Compensation Networks for Heterogeneous Face Recognition阅读笔记

最新推荐文章于 2022-02-22 13:47:34 发布

Ma lidong

最新推荐文章于 2022-02-22 13:47:34 发布

阅读量565

点赞数 1

分类专栏：异质人脸识别论文阅读文章标签：人脸识别计算机视觉神经网络

本文链接：https://blog.csdn.net/qq_41684249/article/details/109771558

版权

18 篇文章 13 订阅

订阅专栏

发布于2019年7月。

提出了残差补偿卷积神经网络（RCN）来缓解HFR的过度拟合并同时减少模态差异，并且可以扩展到其他跨域任务中。
设计了一个易于实现的模态差异损失（MD损失），以有效地减少模态差异。
该方法在四个HFR数据集上达到了最先进的性能。即在IIIT-D Viewed Sketch上占90.34％，在Forensic Sketch上占62.26％，在CASIA NIR-VIS 2.0上占99.32％，在CUHK NIR-VIS上占99.44％。

在这里插入图片描述
训练流程：

注意点：

在这里插入图片描述

在这里插入图片描述

Loss由Softmax Loss和MD Loss组成。λ是权衡这两项的超参数。
MD Loss考虑两个特征之间的余弦相似度来测量两个人脸图像的差异。
欧几里得距离在开始时可能很大，并且在整个训练损失中占主导地位，这可能对训练有害并且可能导致发散。相反，MD损失使用的余弦距离永远不会大于1。因此，与开始时的交叉熵损失相比，MD损失相对较小，并且只能在训练阶段的后期发挥重要作用，这使得训练过程更稳定，更易于收敛。

在这里插入图片描述

IIIT-D Viewed Sketch数据集含有238个素描照片图像对。使用含有1194个图像对的CUFSF数据集进行训练，在IIIT-D Viewed Sketch数据集上计算rank-1识别准确率。
Forensic Sketch数据集含有159个素描照片图像对。使用106名受试者进行训练，53名受试者进行测试。扩展MegaFace数据集中10000个人的10000张面部图像来模拟真实场景，计算rank-50识别准确率。
CASIA NIR-VIS 2.0数据集包含725名受试者的17580张照片，这些照片的姿势、年龄、分辨率和表情各不相同。在View 1上调整参数，并在View 2上报告rank-1人脸识别准确率(VR)和错误接受率(FAR)。
CUHK NIR-VIS有2876个受试者，每个受试者只有一张红外线人脸图像和一张可见的人脸图像。使用1438对红外和可见光图像对作为训练集，其余1438对作为测试集。

数据集预处理：使用MTCNN进行人脸检测然后人脸对齐并裁剪到112×96大小。之后对每个像素减127.5除以128的归一化操作。
在CASIA-WebFace，CACD2000，Celebrity+，MSRA-CFW，cleaned MS-Celeb-1M 数据集上预训练backbone ResNet-10网络。采用交叉熵损失和中心损失的联合监督来训练该网络。
用预先训练好的模型来初始化共享ResNet-10，并用交叉熵损失和MD损失来训练我们的RCN。我们将batch_size设置为128，即64个图像对，初始学习率为0.01。为了减少过拟合，我们冻结了预先训练的CNN的所有卷积层，只训练FC层和RC模块。

在这里插入图片描述

RCN与几个基准模型进行比较：

预先训练的模型在两个数据集上的性能都是最差的，这表明VIS和NIR/Sketch人脸图像之间存在很大的模态差异。
对预先训练好的模型的所有层(第二行)进行微调，大大提高了算法的性能。但是容易出现过拟合问题。
非线性PReLU层在CASIA NIR-VIS 2.0上的性能略有提高，而在IIIT-D上的性能显著下降。这是因为强大的非线性运算导致在小数据集上很容易过拟合。
c的表现差于ab，这是由于VIS分支没有PReLU层。
中心损失无法学习受试者的有效中心，对比损失难以在较少样本的情况下找到有效的负/正对。与交叉熵损失相比，这两种损失函数的值都很大，这使得训练不稳定。
去掉PReLU层，识别准确率有所下降，这验证了非线性映射可以提高表示能力的观点。
堆叠两个RC层略逊于RCN，这表明更多的参数会导致在小数据集上过拟合。
使用3×3的卷积层RC模块效果不好，是因为这两个数据集的训练样本数量有限。
过高的MD Loss会损害类别间的可区分性，导致性能下降。

在这里插入图片描述

关注