原文地址:https://arxiv.org/pdf/1902.07327.pdf
这是一篇2019的cvpr paper,在视频人脸识别中,输入一组图片,输出的单个特征向量。主要是增加了一个聚合模块,用来学习component feature的质量。在feature的前一层,同时输出feature和quality信息,以提高后续metric learning的精度。
摘要
我们提出了一种新的视频人脸识别方法。我们的分量特征聚合网络(C-FAN)接受对象的一组面部图像作为输入,并输出单个特征向量作为用于识别任务的集合的面部表示。整个网络分两步进行训练:(i)训练基本CNN进行静止图像人脸识别; (ii)将聚合模块添加到基础网络以学习每个特征组件的质量值,其自适应地将深特征向量聚合成单个向量以表示视频中的面部。 C-FAN自动学习保留具有高质量分数的显着面部特征,同时抑制具有低质量分数的特征。三个基准数据集,YouTube Faces [39],IJB-A [13]和IJB-S [12]的实验结果表明,所提出的C-FAN网络能够为视频生成512维的紧凑特征向量通过有效地聚合所有视频帧的特征向量来实现现有技术的性能。