论文研究11：Audio-visual Speech Separation with Adversarially Disentangled Visual Representation

最新推荐文章于 2023-08-02 22:33:46 发布

浪浪亮

最新推荐文章于 2023-08-02 22:33:46 发布

阅读量1.3k

点赞数 1

文章标签：机器学习深度学习

原文链接：https://arxiv.org/abs/2011.14334

版权

论文研究11：Audio-visual Speech Separation with Adversarially Disentangled Visual Representation

abstract

语音分离旨在从多个同时讲话者的音频混合中分离出单个语音。尽管仅音频方法具有令人满意的性能，但它们基于处理预定义条件的策略，从而限制了它们在复杂听觉场景中的应用。针对鸡尾酒会问题，我们提出了一种新颖的视听语音分离模型，并使用视觉信息来避免排列问题。为了提高模型对未知说话者的泛化能力，我们通过对抗分离的方法从视觉输入中明确提取了与语音相关的视觉特征，并使用此功能来辅助语音分离。此外，采用时域方法可以避免时频域模型中存在的相位重建问题。为了将我们的模型与其他模型的性能进行比较，我们从GRID和TCDTIMIT视听数据集创建了两个说话者混合的两个基准数据集。通过一系列的实验，我们提出的模型显示出优于最新的纯音频模型和三个视听模型。

I. INTRODUCTION

最近的深度学习方法在语音分离任务中取得了重大进展，该任务也被称为鸡尾酒会问题[1]，[2]。但是，仍然存在许多未解决的问题，例如置换问题[3]和混合物中来源的数量未知。尽管许多提出的仅音频单声道方法试图缓解这些问题并取得可喜的结果[3]-[6]，但是这些工作是建立在处理预定义条件（例如确定说话者的数量）的策略上的。

在鸡尾酒会中，人类听众会通过来自不同形式的多种提示来关注目标说话者[7]。视觉辅助是这些提示中最强大，最稳定的辅助之一。因此，利用音频和视觉提示来设计计算听觉模型是一个自然的想法。使用视觉提示，可以在统一模型中优雅地解决上一段中提到的两个问题。首先，我们使用面部检测器确定场景或混合场景中的说话者数量。其次，我们从所有说话者中选择一个目标说话者，然后模型将目标语音与目标说话者的视觉特征区分开。

几十年前，视听语音分离的想法已经通过许多非深度方法进行了探索[8]-[11]。它们的主要局限性是无法从大型数据集中学习，也无法将其推广到其他说话者。近年来，已经提出了用于视听语音分离和语音增强的深层方法。他们的主要思想是使用深层视觉功能来辅助语音分离或增强。 “从听着看”模型[12]使用预先训练的面部识别模型从面部缩略图中提取面部嵌入作为深层视觉特征，并使用大型数据集进一步了解视觉特征与声音信号之间的相关性。此外，文献[13]中的方法使用了Dlib提取的人脸标志，并获得了令人满意的性能。与上述方法不同，许多作品[14]-[18]直接使用嘴唇区域作为模型的视觉输入。唇部动作是与语音相关的最相关但不是唯一的信息，而面部动作显然包含所有与语音相关的信息。通常，面部包含两种信息：与身份有关的信息和与语音有关的信息。与前者相比，后者是相对独立于说话人的功能，更适合于语音分离任务[19]。

在本文中，受先前的面部表情研究[20]的启发，我们提出了一种新颖的视听语音分离模型。具体来说，我们利用对抗式纠缠方法从面部缩略图中获取与语音相关的视觉特征。与“听听模型” [12]不同，语音相关的视觉特征被显式提取，这使我们的模型即使在有限大小的数据集上也能获得出色的结果。此外，与先前的文献[14]-[18]相比，我们的模型使用了更完整的语音相关视觉信息，并可能获得更好的性能。我们分别对从GRID [21]和TCD-TIMIT [22]视听数据集创建的2说话者混合进行了实验，并使用信噪比改善（SDRi）[23]作为评估手段。结果表明，我们提出的模型优于最先进的纯音频模型：Conv-TasNet [4]和三个视听模型[12]，[14]-[15]。我们还提供了我们创建的两个基准数据集（2个说话者混合），可用于衡量视听语音分离模型的有效性。

II. THE PROPOSED MODEL

我们提出的模型的框架如图1所示。首先，我们使用面部检测器确定场景或混合场景中说话者的数量，并获取每个说话者的脸部缩略图。视觉编码器从相应的面部缩略图中提取与会发言人的与语音相关的视觉特征，然后语音编码器从混合音频中获得混合声学表示。视听语音分离网络将混合声学表示和目标说话人的视觉特征都用作目标掩码预测的输入。之后，我们在混合声学表示和掩码之间进行逐元素乘法运算，以获得目标说话人的声学表示，然后语音解码器会将其解码为目标音频。其余说话者重复相同的过程以分离所有说话者的声音。我们采用对抗解开方法训练视觉编码器。完成训练的实现将在II-B节中介绍。

在这里插入图片描述

A. Adversarially Disentangled Method

对抗解开的方法可以看作两个阶段。首先，如图2（a）所示，我们从干净的音频和视频对中学习联合视听表示，并使用三个监督训练损失来强制两个嵌入式特征（Fv和Fa）共享相同的分布（II-A- 1，IIA-2和II-A-3）。第二，在第一阶段完成后，我们采用对抗训练方法（IIA-4）来将语音相关的视觉特征与联合视听表示分开。最后，整个训练过程总结在II-A-5中。
在这里插入图片描述

1）共享相同的分类器：从Ev获得Fv = [f_v⁽¹⁾，…，f_v⁽ⁿ⁾]和Fa = [f_a^（1），…，f_a^（n）]之后和Ea分别。我们共享相同的分类器C来执行视觉和音频语音识别任务（词级分类），这可以强制它们共享相同的分布。监督损失函数表示为Lw：
在这里插入图片描述
其中pˆ_k^v = sof tmax（C（Fv））_k，pk是真实的类标签，Nw是训练数据集中的单词标签总数。

2）对抗训练：对抗训练是一种有效的方法，可以使两者的分布更加紧密。因此，我们使用简单的对抗训练来进一步推动视觉特征Fv和音频特征Fa处于同一分布。鉴别器D是两类（音频或视频）分类器。训练过程如下所述。首先，视觉编码器Ev和音频编码器Ea被保持，我们训练D来区分特征源，损失函数记为L¹ _adv。然后，D被冻结，我们训练Ea和Ev以防止分类器成功，此损失函数表示为L²_adv。 L¹_adv和L²_adv定义为：
在这里插入图片描述
其中pv等于0表示源是视频，pa等于1表示源是音频，而σ表示sigmoid函数

3）对比损失：我们采用对比损失，旨在使两个嵌入式功能更加接近。在训练期间，从一批N个音频/视频对中以标签l_m=n = 1和l_m！=n = 0抽取第m和第n个样本。 F_v（m）和F_a（n）之间的距离为欧几里得范数d_mn = ||F_v（m）− F_a（n）||₂，对比损失函数表示为Lc：
在这里插入图片描述
4）获得与语音相关的视觉特征：在本节中，我们描述如何使用对抗训练方法从联合视听表示中解开与语音相关的特征。训练过程如图2（b）所示。我们冻结视觉编码器Ev并训练分类器Cp，以便将Fv映射到Np个人ID类。训练分类器的损失函数是softmax交叉熵损失，表示为L^D _adv：
在这里插入图片描述
其中Np是个人身份的数量，而pj是真正的热键标签。然后，我们在冻结分类器Cp的同时更新视觉编码器Ev。确保特征已丢失所有与身份相关的信息的方法是，在将Fv发送到Cp之后，它对所有类别产生相同的预测概率（1 / Np）。换句话说，培训Ev可以防止Cp成功。用于训练视觉编码器的损失函数表示为L^V_adv：
在这里插入图片描述
5）训练过程的细节：训练过程采用对抗训练的范式，如下。对于第一阶段，我们冻结Ev，Ea和C，并使用损失函数L¹_adv训练D。然后，我们冻结D并使用损失函数J1 = L² _adv + Lc + Lw训练Ev，Ea和C。对于第二阶段，我们冻结Ev，Ea和C，并使用损失函数J2 = L¹ _adv + L^D _adv训练D，Cp。然后我们冻结D，Cp并使用损失函数J3 = L² _adv + Lc + Lw + L^V_adv训练Ev，Ea和C.

B. Audio-visual Speech Separation Networks

类似于Conv-TasNet [4]中的分离模块。在我们的视听语音分离网络中，我们通过按比例增加扩散因子来捕获语音信号的长距离依赖性，来堆叠时间卷积网络（TCN）块，如图3（a）所示。事实证明，TCN块在语音分离任务中是有效的[4]，其细节如图3（b）所示。在我们的模型中，我们使用三组TCN块，每组使用八个TCN块。
在这里插入图片描述
对于视觉通道，首先通过视觉编码器提取与语音相关的视觉特征v1∈R^T1×N1，然后使用3层BiLSTM捕获其中的时间依赖性，并获得深度视觉特征v∈R^T1×N2。对于音频路径，混合音频a1∈R^1×T被编码器（卷积层）编码为混合声学表示a2∈R^D×T2。首先对混合声表示a2进行归一化，然后通过B滤波器通过1×1Conv，得到a3∈R^B×T2。第一组TCN块接收a3并输出深音频特征a∈R^B×T2。同时，我们通过融合模块融合了深层视觉特征v和深层音频特征a，将在II-B-1中进行详细介绍。这样，我们就有了融合特征f∈RB×T2，它用作接下来两组TCN块的输入。最后，我们在混合声学表示与模型生成的掩码m∈R^D×T2之间进行逐元素乘法，并获得由解码器（转置卷积层）解码为目标音频的掩码（目标）声学表示。第二个带有D滤波器的1×1Conv确保在掩码和混合声学表示之间具有相同数量的通道，并且S型函数将掩码中的元素限制在0和1之间。网络中的所有归一化都是全局层归一化（gLN）[4] 。

1）多模式融合：首先，为了使深层音频特征a和深层视觉特征v之间的时间分辨率同步，对后者进行上采样操作。然后，将它们在通道维度上串联起来。采用线性层P以减小级联特征的通道尺寸并获得融合特征f。上面的描述可以表示为：
在这里插入图片描述
2）损失函数：训练分离网络的目的是最小化负比例不变源信噪比（SI-SNR），SI-SNR定义如下：

其中ae和at分别是估计的音频和目标音频，并将它们标准化为零均值。此外，α= a^T_e a_t / ||a_t||₂

III. EXPERIMENTS

A. Datasets

视觉编码器在LRW数据集[24]和MS-Celeb-1M数据集[25]上进行训练。我们使用GRID和TCD-TIMIT视听数据集的2说话者混合来测试我们提出的模型的语音分离性能，并且数据集的构造方法与[14]相同。

关于GRID语料库，数据集包含18位男性说话者和15位女性说话者，他们每个人都有1000个正面视频记录（“ s21”必须丢弃）。每个视频的长度为三秒钟。我们随机选择3位男性和3位女性来构建一组有效的2.5小时，另外3位男性和3位女性进行2.5小时的测试。其余的发言人组成了30小时的训练。要构建2个说话者的混合物，我们首先随机选择两个不同的说话者，然后从每个选定的说话者随机选择音频，最后以-5 dB和5 dB之间的随机SNR混合两个音频。对应的两个视频被串联起来以模拟鸡尾酒会的场景，如图1所示。

TCD-TIMIT语料库由59位发言者（32位男性和27位女性）组成，每个演讲者都从TIMIT [26]语料库中读取98个句子，因此每个视频的持续时间约为5秒。我们随机选择6位男性和5位女性来构建2.5小时的验证集，另外6位男性和5位女性进行2.5小时的测试集。其余的发言人组成了30小时的培训课程。数据生成过程与GRID数据集相似。

B. Baselines and Our T-F Domain Model

要比较的视听基线包括Lookingto-Lisen模型1 [12]，AVDC [14]和AV-Match [15]。此外，我们还将我们的方法与最新的纯音频基线Conv-TasNet [4]进行了比较。视听模型和ConvTasNet模型遵循其论文中的最佳配置。由于三个视听基线都是时频（T-F）域模型，因此我们也在T-F域中实现了我们的模型。在我们的T-F域模型中，我们使用短时傅立叶变换（STFT）和逆短时傅立叶变换（ISTFT）代替编码器和解码器。混合声谱图X∈R ^F×T3×2首先通过 STFT在混合音频a1上获得。然后，我们将X的实部和虚部在频率信道上进行级联，得到X1∈R^2F×T3，作为模型输入。输出为复数比率掩码（cRM），由M∈R^F×T3×2表示。使用cRM进行掩膜时，通过对预测的cRM和混合频谱图进行复数乘法来执行ISTFT，即可获得目标音频。我们将损失函数定义为干净频谱图和估计频谱图之间的均方误差（MSE）。

C. Setup

1）视频和音频处理：对于每个视频剪辑，我们将视频重新采样为25 FPS，然后首先将其转换为视频帧。然后，我们使用面部检测器（MTCNN [27]）在每一帧中查找面部，并将面部图像的大小调整为256×256，如图1所示。此外，音频被重新采样到16 kHz。对于我们的TF模型，STFT是使用长度为25 ms，跳跃长度为10 ms，FFT大小为512的Hann窗口计算的。我们按照[28]中的实现提取mfcc特征

2）模型和训练细节：视觉编码器Ev和音频编码器Ea的网络架构类似于[20]。视听语音分离网络B，H，N1，N2和D的参数分别设置为128、512、256、128和512。此外，编码器和解码器的内核大小和跨度都设置为16。以及8.我们使用Pytorch来实现整个模型，将预训练视觉编码器的批次大小设置为18，学习率为1e-4，并使用Adam算法[29]。视听语音分离网络也通过Adam算法进行了优化。学习率从1e-3开始，当损失在验证集上增加至少3个时期时减半。当损失在10个周期的验证集上增加时，将应用早期停止方案。批次大小设置为8，并且在训练期间应用最大L2范数为5的梯度裁剪。

D. Experimental Results

我们的模型和其他模型的实验结果总结在表I中。我们可以从中找到一些有趣的结论。
在这里插入图片描述

首先，我们的TF域模型在GRID和TCD-TIMIT视听数据集上的效果明显优于三个视听模型，例如，听众（L2L）[12]，AV-Match [15]和AVDC [ 14]。应当注意，为了与“期待听”模型进行公平比较，我们在创建的基准数据集上运行他们的模型。 “从听着看”模型的性能比我们的模型差的主要原因是：正如我们所假设的那样，他们的方法很难在有限大小的数据集（例如GRID）中学习与语音相关的信息。此外，与AVDC相比，我们的模型（T-F）在GRID和TCD-TIMIT数据集上分别提高了1.83 dB和3.86 dB。

其次，与基线Conv-TasNet相比，我们的时域模型在GRID和TCDTIMIT数据集上的性能分别超过其性能。此外，我们的模型还具有另一个优势，即在实际应用中更加灵活：我们可以获取场景中包含任意数量发言人的任何人的声音。与仅音频模型DC相比，在GRID和TCD-TIMIT数据集上，AVDC模型的性能提高了1.16 dB和1.15 dB，这可以通过引入视觉信息来查看。重要的是要注意，AVDC模型使用了两阶段多峰融合策略和其他光流信息。相比之下，我们的模型在这两个数据集上分别使用简单的多峰融合策略（串联）增益1.34 dB和2.01 dB，这反映了我们提出的视觉特征提取方法的有效性。