REMIXED2REMIXED: DOMAIN ADAPTATION FOR SPEECH ENHANCEMENT BY NOISE2NOISE LEARNING WITH REMIXING

本文介绍了一种新的语音增强方法Remixed2Remixed,利用Noise2Noise学习策略在人工合成的域外数据上训练模型,通过生成伪域内数据和自举混合,以提高在实际域内数据上的性能。实验结果显示,该方法在CHiME-7无监督域自适应任务上优于RemixIT,且模型稳定性更高。
摘要由CSDN通过智能技术生成

论文来源:ICASSP2024

标题:REMIXED2REMIXED: DOMAIN ADAPTATION FOR SPEECH ENHANCEMENT BY NOISE2NOISE LEARNING WITH REMIXING
作者:Li Li, Shogo Seki
机构:CyberAgent, Inc.
原文链接:https://arxiv.org/abs/2312.16836

摘要

本文提出了一种基于域适应的语音增强方法Remixed2Remixed。该方法采用Noise2NOise
(N2N)学习使在人工合成的数据(out-of-domain,OOD,域外数据)上训练的模型更好地该方法采用Noise2Noise ( N2N )学习来适应在人工生成的带噪-干净语音对( out-of-domain:OOD )数据上训练的模型更好地分离真实带噪语音(in-domain,域内数据)。该方法使用在OOD数据上训练的教师模型来获取伪域内语音和噪声信号,并在每个批次中进行两次打乱和重新混合,以生成两个bootstrapped mixtrues(自举混合)。然后,学生模型使用基于N2N的损失函数并以bootstrapped mixtures为输入进行训练。由于训练策略与最近提出的RemixIT类似,我们也考察了基于N2N的损失作为RemixIT的正则化的有效性。在CHiME - 7无监督域自适应会话语音增强( UDASE )任务上的实验结果表明,该方法优于具有挑战性的基准系统RemixIT,并降低了由教师模型引起的(performance blurring)性能模糊。

关键词:语音增强, 自监督学习, 域自适应, Noise2Noise learning, RemixIT
引言

         语音增强( SE ) [ 1 ]是语音信号处理中的基本问题之一,并且有许多应用,既可以作为助听器,也可以作为许多其他任务的前端系统。它旨在改善在噪声、干扰和混响存在的情况下录制的语音质量,通过深度神经网络( DNNs )得到了极大的改善。
        监督学习是SE中研究最多的方法[ 2 ],其中模型是在噪声-干净的配对数据上训练的,可以直接预测[ 3、4]或通过预测掩码来获得干净的信号[ 5-7 ]。由于一般语音都以对话的形式存在,记录这样的平行对数据是不可能的[ 8 ],因此通常使用人工合成的噪声数据来训练SE模型。然而,由于合成数据(域外:OOD )和真实记录数据(域内)之间的声学条件不同导致的mismatch(分布不匹配),使得训练好的模型在记录数据的情况下容易出现性能下降的问题。最近已经提出了一些方法来解决这个问题,包括旨在使用非平行数据学习模型的无监督方法。最近已经提出了一些方法来解决这个问题,包括旨在使用非平行数据学习模型的无监督方法。例如,从正例和未标记数据中学习的机器学习方法[ 8 ],用评估度量分数[ 9、10 ]替换干净语音的真实值,以及使用观测一致性[ 11、12]等已经被提出。

        另一种有效的解决方案是进行域自适应,即调整在OOD数据上预训练的SE模型,以形成与域内数据匹配的准确噪声-干净映射。现有的方法包括对抗学习、最优传输[ 13、14]、自监督学习等自适应机制。RemixIT [ 15 ]是一种使用自蒸馏的方法,包括两个网络。利用合成的OOD配对数据预训练教师模型,将教师模型应用在真实数据上得到分离的语音和噪声信号,再将这两种信号进行重混,生成带噪语音和目标信号的伪配对数据,用于学生模型训练。随后,利用生成的伪配对数据,通过最小化预测信号和伪目标之间的损失来训练学生模型。利用学生模型的权重,通过加权移动平均( WMA )不断更新教师模型。尽管RemixIT损失在理论上已被证明在教师模型准确预测信号或学生模型观测到大量包含相同教师估计的伪混合时,理想地接近监督损失,但在有限的训练资源下这是不可行的。因此,RemixIT的性能在一定程度上取决于其教师模型的性能。

        另一方面,应用基本统计推理的方法已被提出用于基于DNN的图像去噪。基于用零均值噪声破坏训练目标不会改变去噪网络从干净信号中学习的原理,Noise2Noise ( N2N ) [ 16 ]证明了一个去噪模型可以在带噪-带噪配对数据上训练,后来扩展到SE [ 17 ]。然而,包含同一干净信号的两个独立噪声实现的成对数据的收集是具有挑战性的,特别是对于音频信号。这推动了改进方法的提出,以进一步消除对数据的需求。Noisier2Noise ( Nr2N ) [ 18 ]和recorrupted-to-recorrupted( R2R ) [ 19 ]方法使用从已知的先验噪声中采样的噪声。Noisy-target training(NyTT)使用带噪语音加上额外的噪声来获得SE的噪声配对数据。此外,NyTT已被证明可以降低接近于训练中使用的附加噪声的噪声;然而,在其他噪声的情况下,它的性能会下降[ 22 ]。

        考虑到与从零开始学习的无监督学习相比,具有更少in-domain数据的模型的潜力,本文重点研究了领域自适应方法,并提出了一种名为Remix2Remixed ( Re2Re )的方法,该方法采用了类似于RemixIT和N2N学习的教师学生模型架构。具体来说,教师模型通过执行两次重混过程来生成伪噪声对数据,学生模型使用基于N2N的代价函数进行训练。这有利于仅从带噪语音中获取域内语音和噪声。此外,通过对定义用于去噪的代价函数的显式优化,所提出的方法有望比RemixIT表现得更加一致,而与教师模型的性能无关。

常规方法: RemixIT
监督学习

        从相应分布中提取的语音和噪声信号分别用s\sim D_{s}n\sim D_{n}表示。合成带噪语音过程为x = s + n。利用配对数据( x , s , n),通过优化如下代价函数(即最小化两个信号的重构误差),在全监督下训练一个同时预测语音和噪声\widehat{s},\widehat{n} = F(x,\theta )的模型:

RemixIT

        RemixIT [ 15 ]由教师模型F_{T}和学生模型F_{S}组成。这两个模型都是使用人工合成的OOD数据对( x , s , n)用有监督预训练模型初始化的,并进一步使用仅in-domain数据训练,以增强真实数据{x}'\in D_{​{x}'}。给定一个小批量的域内噪声数据x′= s′+ n′∈R^{B\times T},教师模型预测如下语音和噪声信号:

        式中,加粗的罗马字体a = [ a_{1} , ... , a_{B}]T表示一个batch包含从分布Da中抽取的多个信号a_{b}\theta _{T}^{(k)}表示第k个epoch教师模型的参数。其中,\top表示转置算子,B和T分别表示mini-batch和信号长度。然后将估计信号进行shuffle和remix,以产生bootstrapped mixture {\widetilde{x}}',表示为

        这里,P\sim\prod _{B\times B}是一个置换矩阵.然后使用bootstrapped mixture生成域内伪数据对({\widetilde{x}}', {\widetilde{s}}' , {\widetilde{n}}')。然后,通过最小化模型输出与伪目标{\widetilde{s}}'{\widetilde{n}}'之间的重构误差来训练学生模型F_{S}的参数\theta _{S}^{(k)}: 

        为了生成更准确的伪目标,采用加权移动平均( weighted moving average,WMA )方法,利用学生模型在固定epoch下的权重对教师模型进行不断更新,其表达式为\theta _{T}^{(k+1)}=\gamma \theta _{S}^{(k)} + (1-\gamma))\theta _{T}^{(k)},其中权重参数0≤γ≤1。 

        值得注意的是,当使用基于欧氏范数的度量来衡量重构误差时,Remix IT的代价函数L_{RemixIT}表现出收敛特性: 

        其中{\varepsilon }'_{S}{\varepsilon }'_{T}分别为目标信号s′与学生和教师模型输出之间的重构误差,| | · | | 表示平方L2范数。( 6 )式表明,当第三项为零时,RemixIT损失接近监督损失。这可以通过在教师模型中使用一个准确的估计信号将教师误差降为零,或者通过将学生暴露在各种自举混合{\widetilde{x}}'_{m} = {\widetilde{s}}' + {\widetilde{n}}'_{m}, m = 1,..,M "中使Em[{\widehat{s}}'_{m}\mid{\widehat{x}}'_{m}]在M→∞时接近{\widetilde{s}}'的经验平均学生误差降为零来实现。 这个性质对于确保RemixIT能够像监督学习一样学习模型是很重要的。然而,利用有限的训练资源,例如M = 1,将第三项减少到零是不可行的。因此,RemixIT的性能在一定程度上取决于其教师模型的性能。进一步来说,RemixIT与监督学习可能仍然存在差距。


Proposed method:Remixed2Remixed

        N2N [ 16 ]是一种利用基本统计推理的图像去噪方法。证明了在噪声信号\overline{x}=s + \overline{n}满足E [ \overline{x}| x ] = s的条件下,用噪声对( x , \overline{x})代替( x , s)训练去噪模型的可行性。式中,E [ \overline{x} | x ]表示当提供干净信号的另一种噪声实现时,含噪信号的期望值。当E [ \overline{n} ] = 0,且\overline{n} 与n相互独立时,即x和\overline{x}是s的两个独立的带噪信号,这可以实现;受N2N的成功启发,我们将其扩展到SE,其动机与[ 17 ]类似。与文献[ 17 ]中综合得到两个噪声实现的成对数据不同,我们利用RemixIT中的教师-学生架构,通过预训练的OOD模型分离出的域内语音和噪声信号进行重混,生成成对的噪声数据。这使得很容易从真实含噪信号中获得包含相同信号的两个in-domain含噪实现。

        图1给出了所提方法的流程图,Remixed2Remixed ( Re2Re )。Re2Re具有与RemixIT类似的师生架构,不同之处在于它通过执行两次重混过程来生成两个噪声实现({\overline{x}}' ,{\widetilde{x}}')的域内成对数据,从而为每次训练迭代生成两个自举混合。除了利用式( 3 )生成的nootstrapped mixture{\widetilde{x}}'之外,另一个包含教师估计{\widetilde{s}}'的自举混合表示为:

        其中Q是从一组B × B排列中均匀采样的,Q\perp P。使用噪声对数据({\overline{x}}' ,{\widetilde{x}}'),通过最小化基于N2N的损失来训练学生模型:

        当学生模型能够获得足够的成对数据({\overline{x}}' ,{\widetilde{x}}')时,满足E[ {\overline{x}}' | {\widetilde{x}}' ] = s′。为了产生足够的成对数据,我们在每一个历元上更新教师模型,使得{\widetilde{x}}'{\overline{x}}'可以看作是用\epsilon _{T}^{k}+{P_{\widetilde{n}}}'和ε\epsilon _{T}^{k}+{Q_{\widetilde{n}}}'腐蚀语音信号s′的两种噪声实现,其中\epsilon _{T}^{k}是第k个历元上教师模型的估计误差。通常假设噪声信号和估计误差为零,即[ 23、24 ]。因此,({\overline{x}}' ,{\widetilde{x}}')满足零均值条件.尽管由于\epsilon _{T}^{k}的存在,\epsilon _{T}^{k}+{P_{\widetilde{n}}}'和ε\epsilon _{T}^{k}+{Q_{\widetilde{n}}}'并不完全独立,但可以通过增加{P_{\widetilde{n}}}'{Q_{\widetilde{n}}}'的幂次来减小\epsilon _{T}^{k}的影响。我们还考虑将N2N损失作为RemixIT的正则化项(regularization),称为Re2Re reg,其代价函数由下式给出:

        式中:β≥0为平衡各项任务重要性的参数。通过显式地优化教师模型和学生模型输出之间的去噪代价( 8 )而不是( 5 )的重建误差,使用N2N损失的方法有望比RemixIT表现更一致,而不管教师模型的性能如何。 

实验评估
数据集与实验设置

        为了评估本文提出的Re2Re用于领域自适应的性能,我们在CHiME - 7无监督领域自适应对话语音增强( UDASE )任务[ 25、26 ]上进行了语音增强实验,该任务包含3个数据集:( 1 )用于训练OOD有监督SE模型和开发的Libri Mix配对数据集;( 2 ) CHiME - 5领域内无标签数据集,用于采用领域适应、开发和评估;(3)带混响的LibriCHiME-5的配对数据作为开发集和测试集。所有的数据集都包含三个标注说话人数量最多的子集:1 - spk、2 - spk和3 - spk。

        Libri Mix [ 27 ]:包含来自LibriSpeech [ 28 ]和WHAM ! [ 29 ]。将Libri2Mix和Libri3Mix分别作为2 - spk和3 - spk的子集,每个混合气中包含两个或三个重叠的扬声器,并在Libri2Mix混合气中丢弃其中一个扬声器得到1 - spk的子集( Libri1Mix )。1 - spk、2 - spk和3 - spk混合物的比例分别为0.5、0.25和0.25。

        CHiME-5 [ 30 ]:一个数据集最初包含在4人聚餐会上记录的20个会话会话的嘈杂的多说话人话语。CHiME-7 UDASE摘录了受试者佩戴麦克风未说(也就是说,同时活动的说话人的最大数量是三个)的录音通道,并将信号分为4个子集,其中包括至少3s长度的短段,根据转录本标记的最大说话人数量。使用仅包含噪声片段的子集创建用于客观评价的混响LibriCHiME - 5数据集。其他子集进一步划分为训练(≈83h )、发展(≈15.5h )和评估(≈7h )。将用于训练的片段切割成长达10s的片段,使用语音活动检测器( VAD )进行后处理,得到两个版本的训练数据集:CHiME-5 w / o VAD和CHiME - 5 w / VAD。

        混响LibriCHiME-5:一个由带噪混响语音和纯净语音组成的合成数据集,其中的干净语音和噪声信号分别取自LibriSpeech和前述仅噪声子集。从Voice Home语料库中提取的房间脉冲响应( Room Impulse Response,RIR )被记录在3个真实家庭的客厅、厨房和卧室中,采用18种不同的麦克风阵列和扬声器设置。通过对随机采样的语音和随机采样的RIR进行卷积生成混合语音,其中每个说话人的信噪比( SNR )分布为均值为5 dB,标准差( std )为7 dB的高斯分布,以匹配CHiME - 5数据集。1 - spk、2 - spk和3 - spk亚群的比例分别为0.6、0.35和0.05。开发和评估的数据时长均约为3h。

        为了证明代价函数的有效性,我们使用了CHiME - 7提供的配方,除了代价函数之外没有进行任何修改。我们在教师和学生模型中都使用了Sudo rm-rf [ 6 ]架构,其编码器和解码器分别由一维卷积和转置卷积组成,具有512个滤波器,41个抽头和20个样本的跳数;分离器由8个U - Conv块组成。预训练的教师模型初始化学生模型,并由WMA以γ = 0.01的权重每隔一个历元不断更新。批号为24。在RemixIT中,使用负的尺度不变信号失真比( SI-SDR ) [ 31 ]作为代价函数来训练教师和学生模型。我们使用估计的语音信号和自举混合之间的均方误差作为LRe2Re。对于Re2Re reg,我们根据发展集设定β = 100。我们计算了DNSMOS [ 32 ]在CHiME - 5数据集的1 - spk子集上的得分和SI - SDR [ dB ]在混响LibriCHiME - 5数据集上的得分。关于数据集和基线系统的进一步细节可以在[ 25、26 ]中找到。

实验结果

        首先,将提出的Re2Re和Re2Re reg与CHiME - 7基线系统进行了比较。Table 1列出了混响LibriCHiME - 5数据集上的SI - SDRs [ dB ]和CHiME - 5数据集1 - spk子集上的DNSMOS得分。所有模型均使用CHiME - 7提供的Sudo rm - rf检查点进行训练。所提出的两种方法在SI - SDR方面优于基线方法,而不管VAD是否应用于训练数据。Re2Re仅利用N2N损耗实现了SI - SDR,比RemixIT分别提高了约0.71 d B和1.08 d B。然而,对于DNS - MOS没有观察到任何改善。这可能是由于Re2Re仅考虑了语音信号的重构误差,导致对背景噪声的估计精度较低。表2总结了10个教师模型的SISDR和每个子集的方差。所提出的两种方法在所有情况下都取得了较好且相对稳定的性能。在无VAD和有VAD的数据上训练的模型在2 - spk和3 - spk子集上分别获得了0.99和1.62 dB的SI - SDR改善,以及0.58和0.85 dB的SI - SDR改善,而在1 - spk子集上的SI - SDR改善仅限于0.29和0.23 dB。这可能是DNS - MOS改进不足的另一个原因。在没有VAD的数据上训练时,标准差大约减半,而在有VAD的数据上训练时,标准差略有降低,这表明学生模型相对于教师的性能可以通过N2N损失来稳定,甚至作为正则化。随后,我们将我们最好的系统与那些提交给挑战的系统进行了比较,其结果总结在表3中。所提出的方法在SISDR和DNS - MOS的基线RemixIT挑战中获得了与系统排名第二的性能相当的性能。

总结

        本文提出将N2N学习应用于SE域适应。所提出的方法称为Remixed2Remixed,采用师生架构,其中教师模型使用OOD数据预训练,然后用于生成伪噪声对数据,学生模型通过最小化基于N2N的损失函数进行训练。在CHiME - 7 UDASE任务上的实验结果表明,与RemixIT w.r.t SI - SDR相比,Re2Re具有更稳定的性能。 


 
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值