翻译Audio-Visual Deep Neural Network for Robust Person Verification

最新推荐文章于 2024-01-08 21:06:24 发布

平凡的兵

最新推荐文章于 2024-01-08 21:06:24 发布

阅读量416

点赞数

分类专栏：语音识别

本文链接：https://blog.csdn.net/chinabing/article/details/116309234

版权

语音识别专栏收录该内容

17 篇文章

订阅专栏

基于音视频深度神经网络的鲁棒性身份确认

0 摘要

对于说话人确认来说，声音和人脸是两个最普遍的生物特征，通常应用于说话人确认和人脸确认任务。已经有研究证明，将两种模态信息进行融合可以构建更加稳定鲁棒的身份确认系统。本文全面展示多模态学习策略，提出三种音视频深度神经网络，把控特征级AVN-F，embedding级AVN-E，以及embedding级融合联合学习AVN-J。为了进一步加强系统在真实噪声场景的鲁棒性，该场景下，并不是所有的模态信息都能高质量采集，我们提出了多种数据增广策略：特征级数据增广、embedding级数据增广、特征和embedding融合的数据增广。所有模型均基于VoxCeleb2开发数据集训练，基于标准VoxCeleb1数据集进行评估，最佳系统在三个官方集合上可以达到0.558%、0.441%和0.793%的EER，这也是目前最佳单系统效果。为了评估本文方案的鲁棒性，我们基于VoxCeleb1构建了一个噪声评估集，我们的希望在该评估集上依然鲁棒。

1 介绍

对于基于语音的说话人确认系统，信道差异或噪声干扰往往影响效果，基于图像的人脸确认系统，挑战来自关照、人脸运动和姿势的变化。

2 背景

A 说话人确认

B 人脸确认

C 基于音视频进行身份确认

3 特征级音视频网络

A 模型架构

先将音频和视频特征分别编码到另一个空间进行融合，一种最裸的方式就是先对音频特征图进行变换得到 $M_a$ ，再对视频特征图变换得到 $M_v$ ，然后将两个图进行concat。

音频和视频支路特征变换如table 1所示。

B 注意力模块

在上述音频编码 $M_a$ 和视频编码 $M_v$ 进行concat之前，分别进行attention操作。

（1）attention模块#1

来自于SE-Resnet的灵感，将 $M_a$ 和 $M_v$ 通过GAP（global average pooling），变换到 $c_a$ 和 $c_v$ $\in R^{64}$ ，通过 $c_a$ 和 $c_v$ 计算attention系数 $\alpha _a$ 和 $\alpha _v$ 。