AV-SEPFORMER:用于视听目标说话人提取的交叉注意分隔器

文章介绍了清华大学深圳国际研究生院和北京小米公司合作开发的AV-SEPFORMER,一种针对视听目标说话人提取任务的模型,通过跨模态注意力机制解决不同模态特征粒度问题。实验结果显示,AV-SEPFORMER在VoxCeleb2和跨域数据集上表现出色。
摘要由CSDN通过智能技术生成

AV-SEPFORMER: CROSS-ATTENTION SEPFORMER FOR AUDIO-VISUAL TARGET SPEAKER EXTRACTION

第二章 目标说话人提取之《AV-SEPFORMER:用于视听目标说话人提取的交叉注意分隔器》



前言

语音新手入门,学习读懂论文。
本文作者机构是清华大学深圳国际研究生院2北京小米公司3香港中文大学。
在这里插入图片描述


一、任务

提出了AV-SepFormer,这是一个视觉和音频两种尺度的TSE双尺度模型。
提出了三个模块,进行进一步建模。作者引入了一种二维位置编码方法,以帮助我们的基于注意力的模型在块内和块间级别学习二维空间关系,从而使跨模态融合在块内级别更清楚地区分连续音频帧成为可能。

二、动机

TSE方法不受(PIT)的限制,需要额外的线索信息来识别目标说话人。研究人员已经创造了许多技术来利用各种形式的线索,包括参考语音、静止说话人的面部图像和嘴唇运动。受DPRNN和SepFormer的启发,作者将音频特征序列分成更短的块,使音频特征块的数量与视觉特征序列的长度相匹配。通过这种方式,音频分块特征具有与视觉特征相当的时间粒度。

三、挑战

因为音频特征是细粒度的,而视觉特征往往是粗粒度的,会导致TSE性能下降。

四、方法

1.总体架构

在这里插入图片描述
Audio Encoder使用核大小为L、步长为L/2的1D卷积操作在这里插入图片描述
在这里插入图片描述
N为音频特征维数,这种方法也被称为自适应前端,用可微变换取代短时傅里叶变换(STFT)。

在这里插入图片描述
Chunk操作将Hx分成长度为C和跳数为C/2的块。然后将所有块连接在一起,形成3D音频块特征。I表示块的数量,它被设计成完全等同于视觉特征Hv的长度。

2.视觉编码器

视觉编码器遵循之前的视听TSE,使用预训练的固定参数唇嵌入提取器,该提取器由3D卷积层和18层ResNet组成,并结合多层TCN网络。
在这里插入图片描述

3.

在这里插入图片描述
分离器由三部分组成:IntraTransformer, CrossModalTransformer和InterTransformer。

在这里插入图片描述
IntraTransformer的目标是在细粒度的块内级别对音频块特征进行建模。
在这里插入图片描述CrossModalTransformer在同一时间粒度内融合音频和视觉特性。
在这里插入图片描述
将Kx、Vx、Qx分别作为key、value和query输入CrossModalTransformer,输出融合特征Hf。
在这里插入图片描述
InterTransformer侧重于在粗粒度块间级别对融合特性进行建模。

4.二维编码

在这里插入图片描述
在这里插入图片描述
当涉及到基于转换器的模型时,位置编码被认为是必不可少的。一维位置编码通常用于编码Hx和Hv等2D特征。由于H ’ x的三维形状,在AVSepFormer中不适用
在这里插入图片描述
c, i表示块内部和块之间的位置,u, v表示特征维上的位置。

5.音频解码器

OverlapAdd操作寻求从分块的3D特征重构2D特征。它可以看作是中Chunk操作的逆操作。
在这里插入图片描述
音频解码器的输入是目标说话人的掩码M与音频编码器的输出Hx之间的逐元素乘法
在这里插入图片描述
Audio Decoder使用与Audio Encoder相同步幅和核大小的转置卷积层重构目标语音。
在这里插入图片描述

五、实验评价

1.数据集

VoxCeleb2数据集上评估AV-SepFormer。训练组和测试组中说话者的身份没有重叠。所有话语的持续时间在4到6秒之间。LRS3和TCDTIMIT上进行了跨域数据集的比较。

2.实验设置

在这里插入图片描述

3.客观评价

在这里插入图片描述
作者在AV-ConvTasNet (att)中使用交叉注意来融合音频和视觉特征[27],而不是在原始AV-ConvTasNet中直接连接。
在这里插入图片描述
在LRS3和TCD-TIMIT上,AV-SepFormer与其他模型相比仍具有较强的竞争力。

4.消融实验

在这里插入图片描述

六、结论

本文提出了一种基于双尺度变压器的AVSepFormer模型,以克服由于视听特征的时间粒度不一致而导致的视听TSE任务的退化。结果表明本文提出的AV-SepFormer在语音信号质量和整体感知质量方面都具有优越的性能。

七、知识小结

  • 18
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

budangdiyi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值