论文研究6:SEEING THROUGH NOISE:VISUALLY DRIVEN SPEAKER SEPARATION AND ENHANCEMENT

论文研究6:SEEING THROUGH NOISE:VISUALLY DRIVEN SPEAKER SEPARATION AND ENHANCEMENT

abstract

当在嘈杂的环境中拍摄视频时,要在过滤其他声音或背景噪音的同时隔离特定人的声音具有挑战性。 我们提出了视听方法,以隔离单个说话人的声音并消除无关的声音。 首先,通过将无声视频帧通过基于视频到语音的神经网络模型,将视频中捕获的面部动作用于估计说话者的语音。 然后,将语音预测作为滤波器应用于有噪声的输入音频。 这种方法避免在学习过程中使用声音的混合,因为这种可能的混合的数量巨大,并且不可避免地会偏向训练后的模型。 我们在两个视听数据集GRID和TCD-TIMIT上评估了我们的方法,结果表明,相对于原始的视频到语音预测,我们的方法获得了显着的SDR和PESQ改进,并且是众所周知的纯音频方法。

1. INTRODUCTION

单通道说话者的分离和语音增强已经得到了广泛的研究[1、2]。 最近对神经网络进行了训练,可以将混合音频分离到其来源中[3]。 这些模型能够学习独特的语音特征,如谱带,音调和噪声 [4]。 纯音频方法的主要困难是它们在分离相似的人类声音(例如相同性别的混合物)方面的性能较差。

我们首先描述两个讲话者的混合语音的分离,这些讲话者的面孔在视频中可见。 我们继续将单个可见讲话者的语音与背景声音隔离开来。 这项工作是建立在机器语音阅读的最新进展的基础上的,它是通过面部和嘴巴的可见运动来生成语音的[5,6,7]。

与其他利用在语音和噪声或两种声音的混合中训练的模型的方法不同,我们的方法是依赖于说话者和噪声不变的。 这样,即使在同一个人的两个声音重叠的情况下,我们也可以使用少得多的数据来训练模型,并且仍然可以获得良好的结果。

1.1. Related work

纯音频语音增强和分离以前的单通道或单声道语音增强和分离方法大多使用纯音频输入。 通用的光谱掩蔽方法会生成掩蔽矩阵,其中包含每个说话者都占主导的时频(TF)分量[8、9]。 黄等人 [10]最早使用基于深度学习的方法进行与说话者相关的语音分离。

Isik等[4]使用深度聚类解决了单通道多语音者分离问题,在这种方法中,经过区别训练的语音嵌入被用作聚类和分离语音的基础。 Kolbaek等[11]介绍了一种更简单的方法,其中他们使用排列不变损失函数,该函数可以帮助基础神经网络区分不同的说话者。

视听语音处理:视听语音处理的最新研究广泛使用了神经网络。 Ngiam等人的工作[12]是这方面的开创性工作。 具有视觉输入的神经网络已被用于唇读[13],声音预测[14]和学习无监督的声音表示[15]。

视听语音的增强和分离也已经完成[16,17]。 Kahn和Milner [18,19]使用手工制作的视觉特征来导出用于说话人分离的二进制和软掩码。 侯等人 [20]提出了基于CNN的模型来增强嘈杂的语音。 他们的网络生成代表增强语音的频谱图。

2. VISUALLY-DERIVED SPEECH GENERATION

存在几种从说话人的无声视频帧中产生可理解语音的方法[5、6、7]。 在这项工作中,我们依靠vid2speech [6],在2.1节中进行了简要介绍。 应当注意,这些方法取决于说话者,这意味着必须为每个说话者训练一个单独的专用模型

2.1. Vid2speech

在最近的一篇论文中,Ephrat等人[6]提出了一种基于神经网络的方法,用于从讲话人的无声视频帧序列中生成语音频谱图。 他们的模型采用两个输入:(i)K个连续帧的视频剪辑,以及(ii)连续帧之间的(K -1)个密集光流场的“剪辑”。 该网络体系结构由双塔ResNet [21]组成,它采用上述输入并将其编码为表示视觉特征的潜矢量,随后将其馈送到一系列两个完全连接的层中,从而生成梅尔谱图预测。 随后是一个后处理网络,该网络汇总多个连续的预测并将其映射到表示最终语音预测的线性频谱图。

3. AUDIO-VISUAL SPEECH SEPARATION

我们建议检查音频输入的频谱图(多种来源的混合),并将每个时频(TF)元素分配给其各自的来源。 生成的频谱图用于重建估计的单个源信号。

上述分配操作基于每个演讲者的语音频谱估计图,该语音频谱图是由Sec2的视频语音模型生成的。由于视频到语音处理不会生成完美的语音信号,因此我们仅将它们用作分离嘈杂混合物的先验知识。

3.1. Speech separation of two speakers

在这种情况下,两个语音者(D1,D2)使用单个麦克风面对相机。 我们假定说话者是已知的,即我们预先训练了两个单独的视频语音网络(N1,N2),每个说话者一个,其中使用说话者D1的视听数据集训练N1,并且训练N2 在说话者D2上。

给定说话者D1和D2的视频,它们的音轨包含他们的混合语音,语音分离过程如下:

1.使用面部检测方法在视频中检测说话者D1和D2的面部[22]

2.使用网络N1和N2从各个面部预测说话者D1和D2的语音梅尔音阶声谱图S1和S2。

3.从输入音频中生成混合梅尔音阶声谱图C。

4.对于每个(t,f)
在这里插入图片描述
5.通过Pi = C * Fi从混合频谱图C生成每个说话者的分离频谱图Pi,其中*表示逐元素相乘。

6.从频谱图(P1或P2)重建分离的语音信号,保留每个分离频率的原始相位。

可以修改上述步骤4中的二元分隔,即“赢家通吃”,以生成比率掩码,该比率掩码为每个TF bin提供0到1之间的连续值,即可以完成两个掩码F1和F2的生成 通过:

在这里插入图片描述

3.2. Speech enhancement of a single speaker

在语音增强情况下,一个说话者(D)面对具有单个麦克风的摄像机。 还记录了背景噪音,其中可能包括其他(看不见的)说话者的声音。 任务是将说话者的声音与背景噪音区分开。 和以前一样,我们假设我们在该说话者的视听数据集上预先训练了视频语音网络(N)。 但是与语音分离不同,只有一个语音预测可用。

因为我们假设说话者以前是已知的,所以我们根据说话者的训练数据计算长期语音频谱(LTSS),以获得说话者语音中每个频率的分布。 对于每个频率f,我们选择一个阈值τ(f),以指示该频率何时可能来自此讲话者的语音,并且在抑制噪声时应保留该频率。 例如,给定频率的阈值可以设置为最高X百分位数(在这种情况下,X是超参数)。 阈值函数的示例可以在图1中看到。
在这里插入图片描述

给定同一说话者的新视频,且声音嘈杂,隔离说话者声音的过程如下:

1.根据训练数据的长期语音频谱(LTSS)计算阈值函数τ(f)。
2.使用面部检测方法在输入视频中检测说话者D的面部。
3.使用网络N从检测到的面部预测说话者D的语音梅尔音阶声谱图S。
4.从嘈杂的音频输入中生成嘈杂的梅尔音阶声谱图C。
5.使用阈值τ(f)构造分离掩码F:对于频谱图中的每个(t,f),我们计算:
在这里插入图片描述
6.通过以下操作对嘈杂的梅尔音阶频谱图C进行滤波:P = C F,其中表示元素乘法。
7.从预测的Melscale频谱图P重构干净的语音,并保留每个隔离频率的原始相位。

4. EXPERIMENTS

4.1. Datasets

GRID语料库:我们对GRID视听句子语料库[23]进行了实验,GRID视听句子语料库是一个庞大的音频和视频(面部)录音数据集,包含34个人说的1,000个3秒句子。 GRID语料库中总共包含51个不同的单词。

TCD-TIMIT:我们对TCD-TIMIT数据集进行了另外的实验[24]。该数据集包括60位演讲者,每个演讲者约200个视频,以及3位口语演讲者,这些人经过专门培训,能够以一定的方式帮助口语阅读者理解其视觉语音。演讲者使用前置摄像头和30度摄像头记录了TIMIT数据集[25]中的各种句子。

混合协议:对于每个实验,我们都从两个相同性别的说话者的语音信号中合成音频混合。给定音频信号s1(t),s2(t),使用每个源的原始非归一化增益,将其混合合成为s1(t)+ s2(t)。所有实验中的信号均来自训练相关vid2语音模型时看不见的数据。

4.2. Performance evaluation

我们的实验结果是使用客观的源分离评估评分进行评估的,包括SDR,SIR和SAR [26]和PESQ [27]。 除了这些测量之外,我们还使用非正式的人类听觉定性评估了结果的清晰度和质量。 我们强烈建议读者观看和收听我们项目网页上的补充视频,以证明我们的方法的有效性。

4.3. Results

分离:表1显示了从GRID和TCD-TIMIT数据集中说出的句子的合成混合物进行分离实验的结果。 GRID实验涉及测试来自两个男性说话者(S2和S3)的随机语音混合。 TCD-TIMIT实验涉及女性说话者(口语者3)和她自己的声音的随机语音混合,强调了我们方法的功能。 我们对通过应用Huang等人的纯音频方法获得的结果进行比较。 [10]。 此外,我们与vid2speech生成的原始语音预测进行了比较,而未应用任何分离方法。

在这里插入图片描述
可以看出,在处理诸如GRID之类的受限词汇数据集时,原始语音预测具有合理的质量(PESQ分数)。 但是,当处理更复杂的数据集(如TCDTIMIT)时,vid2speech会生成低质量且几乎无法理解的语音预测,其中包含来自较大词汇量的句子。 在这种情况下,我们的分离方法会产生实际影响,并且最终语音信号听起来要比原始语音预测好得多。 我们使用地面真实源信号的频谱图来构造理想的二进制和比率掩码,并将它们的分离分数作为我们分离方法的性能上限。 分离的频谱图的示例如图2所示。
在这里插入图片描述
增强功能:表2显示了从GRID和TCD-TIMIT数据集中说出的句子的合成混合物进行增强实验的结果。 GRID实验涉及两名男性说话者(S2为目标说话者,S3为背景说话者)的随机语音混合。 TCD-TIMIT实验涉及两名女性讲话者的随机语音混合(演讲者3作为目标,演讲者2作为背景)。 在这里,我们还介绍了与vid2speech生成的原始语音预测的比较。 我们使用地面真实源信号的频谱图作为“预言”来评估我们方法的性能上限。
在这里插入图片描述
我们还对语音和非语音背景噪声的混合进行了定性评估,其示例可在我们的项目网页上找到。

未知讲话者的语音分离尝试使用在其他讲话者上训练的模型来预测未知讲话者的语音通常会导致不良结果。 在此实验中,我们尝试将两名“未知”发言人的语音分开。 首先,我们根据“已知”说话者(GRID的S2)的数据训练了一个vid2speech网络[5]。 训练数据由随机选择的句子组成(总计40分钟)。 在根据分离方法预测每个“未知”说话者(GRID中的S3和S5)的语音之前,我们使用少量实际说话者样本(总计5分钟)对网络进行了微调。 然后,我们将语音分离过程应用于未知说话者说出的看不见句子的合成混合词。 结果总结在表3中。

5. CONCLUDING REMARKS

这项工作表明,可以通过利用视觉信息来执行高质量的单通道语音分离和增强。 与第1节中提到的纯音频技术相比,我们的方法不受同性别语音分离中常见的相似语音人声特征问题的影响,因为我们获得了视觉信息的歧义。

本文所述的工作可以作为未来几个研究方向的基础。 这些包括使用较少约束的视听数据集,该数据集由现实中的多语音者和嘈杂的录音组成。 要考虑的另一个有趣点是使用我们的增强方法来改善语音识别系统的性能。 以端到端的方式实现类似的语音增强系统也可能是一个有希望的方向。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值