AV-SEPFORMER：用于视听目标说话人提取的交叉注意分隔器

budangdiyi

于 2024-03-14 20:37:51 发布

阅读量942

点赞数 18

文章标签：人工智能音视频语言模型学习

本文链接：https://blog.csdn.net/budangdiyi/article/details/136719389

版权

文章介绍了清华大学深圳国际研究生院和北京小米公司合作开发的AV-SEPFORMER，一种针对视听目标说话人提取任务的模型，通过跨模态注意力机制解决不同模态特征粒度问题。实验结果显示，AV-SEPFORMER在VoxCeleb2和跨域数据集上表现出色。

摘要由CSDN通过智能技术生成

AV-SEPFORMER: CROSS-ATTENTION SEPFORMER FOR AUDIO-VISUAL TARGET SPEAKER EXTRACTION

第二章目标说话人提取之《AV-SEPFORMER:用于视听目标说话人提取的交叉注意分隔器》

文章目录

AV-SEPFORMER: CROSS-ATTENTION SEPFORMER FOR AUDIO-VISUAL TARGET SPEAKER EXTRACTION
前言
一、任务
二、动机
三、挑战
四、方法
五、实验评价
六、结论
七、知识小结

前言

语音新手入门，学习读懂论文。
本文作者机构是清华大学深圳国际研究生院2北京小米公司3香港中文大学。
在这里插入图片描述

一、任务

提出了AV-SepFormer，这是一个视觉和音频两种尺度的TSE双尺度模型。
提出了三个模块，进行进一步建模。作者引入了一种二维位置编码方法，以帮助我们的基于注意力的模型在块内和块间级别学习二维空间关系，从而使跨模态融合在块内级别更清楚地区分连续音频帧成为可能。

二、动机

TSE方法不受(PIT)的限制，需要额外的线索信息来识别目标说话人。研究人员已经创造了许多技术来利用各种形式的线索，包括参考语音、静止说话人的面部图像和嘴唇运动。受DPRNN和SepFormer的启发，作者将音频特征序列分成更短的块，使音频特征块的数量与视觉特征序列的长度相匹配。通过这种方式，音频分块特征具有与视觉特征相当的时间粒度。

三、挑战

因为音频特征是细粒度的，而视觉特征往往是粗粒度的，会导致TSE性能下降。

四、方法

1.总体架构

在这里插入图片描述
Audio Encoder使用核大小为L、步长为L/2的1D卷积操作

N为音频特征维数，这种方法也被称为自适应前端，用可微变换取代短时傅里叶变换(STFT)。

在这里插入图片描述
Chunk操作将Hx分成长度为C和跳数为C/2的块。然后将所有块连接在一起，形成3D音频块特征。I表示块的数量，它被设计成完全等同于视觉特征Hv的长度。

2.视觉编码器

视觉编码器遵循之前的视听TSE，使用预训练的固定参数唇嵌入提取器，该提取器由3D卷积层和18层ResNet组成，并结合多层TCN网络。
在这里插入图片描述

3.

在这里插入图片描述
分离器由三部分组成:IntraTransformer, CrossModalTransformer和InterTransformer。

在这里插入图片描述
IntraTransformer的目标是在细粒度的块内级别对音频块特征进行建模。
CrossModalTransformer在同一时间粒度内融合音频和视觉特性。

将Kx、Vx、Qx分别作为key、value和query输入CrossModalTransformer，输出融合特征Hf。

InterTransformer侧重于在粗粒度块间级别对融合特性进行建模。