基于音视频深度神经网络的鲁棒性身份确认
0 摘要
对于说话人确认来说,声音和人脸是两个最普遍的生物特征,通常应用于说话人确认和人脸确认任务。已经有研究证明,将两种模态信息进行融合可以构建更加稳定鲁棒的身份确认系统。本文全面展示多模态学习策略,提出三种音视频深度神经网络,把控特征级AVN-F,embedding级AVN-E,以及embedding级融合联合学习AVN-J。为了进一步加强系统在真实噪声场景的鲁棒性,该场景下,并不是所有的模态信息都能高质量采集,我们提出了多种数据增广策略:特征级数据增广、embedding级数据增广、特征和embedding融合的数据增广。所有模型均基于VoxCeleb2开发数据集训练,基于标准VoxCeleb1数据集进行评估,最佳系统在三个官方集合上可以达到0.558%、0.441%和0.793%的EER,这也是目前最佳单系统效果。为了评估本文方案的鲁棒性,我们基于VoxCeleb1构建了一个噪声评估集,我们的希望在该评估集上依然鲁棒。
1 介绍
对于基于语音的说话人确认系统,信道差异或噪声干扰往往影响效果,基于图像的人脸确认系统,挑战来自关照、人脸运动和姿势的变化。
2 背景
A 说话人确认
B 人脸确认
C 基于音视频进行身份确认
3 特征级音视频网络
A 模型架构
先将音频和视频特征分别编码到另一个空间进行融合,一种最裸的方式就是先对音频特征图进行变换得到,再对视频特征图变换得到,然后将两个图进行concat。
音频和视频支路特征变换如table 1所示。
B 注意力模块
在上述音频编码和视频编码进行concat之前,分别进行attention操作。
(1)attention模块#1
来自于SE-Resnet的灵感,将和通过GAP(global average pooling),变换到和, 通过和计算attention系数和。
其中f包含两个线性层128x8和8x128,两者之间有个Relu激活层。
(2)attention模块#2
直接进行GAP,信息丢失较大。
先将和转换到和,这里的变换是通过conv完成,这里之间使用和计算attention系数向量。
(3)attention模块#3
通常情况,如果一类modality数据处于较差环境,那么它的特征也较差。对(2)进行简化,计算attention系数标量。
其中g包含两个线性层128x8和8x2,两者之间有个Relu激活层。
C 特征级多模态数据增强
对于多模态数据对,我们对其中一个模态数据加强噪,使得模型学习到更显性特征。
4 Embedding级音视频网络
A 模型架构
如fig.4所示,融合网络的输入是说话人embedding和人脸embedding。有两大优点
(1)所有操作都在embedding空间,易实现,优化快。
(2)将前端进行分离,这样可以复用很多预训练模型。
5 Embedding级联合学习音视频网络
6 损失函数
7 数据集
8 实验设置
9 实验结果和分析
10 总结