《JOINT MAGNITUDE ESTIMATION AND PHASE RECOVERY USING CYCLE-IN-CYCLEGAN FOR NON-PARALLEL SPEECH ENH》论

摘要

很多真实场景种,因为配对的带噪和纯净语音数据对的语料缺少,非并行的训练对于基于深度学习的语音增强来说是一个极具挑战的任务。但是,因为很多输入语音和目标语音的不匹配,许多先前沿研究只是关注幅度谱的估计,没有改变相位,在低信噪比下导致语音质量遭到了损坏。为了解决这个问题,我们把一个难得任务分解为多个简单的任务,原始的频谱优化估计分解为幅度谱和相位谱,一个新的循环GAN网络被提出联合优化幅度谱和相位谱在未配对语音数据的情况下。在第一个阶段,我们预训练了一个幅度的循环GAN粗略的估计纯净语音的幅度谱。在第二个阶段,我们结合第一阶段估计的循环GAN和一个复数的GAN作为一个cycle-in-cycle结构同时来恢复相位信息并且细化整体的频谱结构。实验结果表明该提出的方法在非并行的环境下胜过了很多基本的baseline。在配对的数据集上该提出的模型性能也比较好。

INTRODUCTION

真实环境中,语音常常会受到很多种背景噪声的干扰。这些干扰会使得语音相关的任务产生失真,比如说ASR,助听器等等。为了处理这些失真,语音增强就被应用去减轻北京噪声以更好的提高语音的可懂度。基于深度学习的语音增强显示除了卓越的性能在非平稳的环境下,在低信噪比下。这些基于深度学习的方法分类为mask,mapping。最近,GAN在单通道语音增强上面获得了关注,生成器的目标是生成增强的语音,辨别器目标是为了分辨真实的语音还是生成器生成的语音。对于这些标准的自监督方法,网络被训练最小化去减小二者之间的误差。

尽管以上深度学习的方法有不错的性能,但是常常需要更多的配对纯净语音和带噪的数据来实现自监督训练和提高泛化性能。但是,在一些真实的场景下,很难去并行记录这些数据对,我们只能获得纯净语音,但是这个纯净语音和源带噪语音是不匹配的。在这种情况下,标准的自监督语音增强方法常常无法获得很好的性能。为了处理这个问题,cycleGAN被发展为处理无监督的语音增强,最原始的是被用于图像与图像之间的转译。在语音增强领域,cycleGAN方法可以显著的提高语音的可懂度和质量,无论是配对还是不配对的数据的情况下。但是,这些传统的cycleGAN方法对于非并行的语音增强任务还是有很多局限性。第一,为了保证无配对数据的原始带噪语音和目标纯净语音的周期一致性,增强信号中始终包含原始噪声信息。换句话说,基于周期一致性的方法仍然存在可听残余噪声,很难完全消除。第二,以往基于cyclegan的SE方法只关注幅值谱估计,并保持噪声相位不变。这是因为同时恢复干净的频谱和相位信息仍然是一项艰巨的任务,更不用说当噪声-纯净语音对不匹配时。然而,最近的研究表明,准确的相位对提高感知语音质量的重要性,特别是在低信噪比的情况下。

多阶段的算法在语音增强领域开始应用了。将原困难任务分解为多个较简单的子任务,逐步诱导出较好的结果。在这些研究的推动下,我们结合幅谱估计CycleGAN (MCGAN)和复数谱细化的CycleGAN (CCGAN)作为循环中循环GAN (CinCGAN)范式,在非并行训练下逐步估计纯净的谱幅度和相位信息。第一步,将复数谱解耦为幅度幅和相位谱,MCGAN只对幅度谱进行估计;随后,将复数CCGAN与预训练的MCGAN相结合,共同恢复纯净的幅度谱和相位信息。具体地说,我们将MCGAN估计的幅度谱与原始相位耦合为一个粗略估计的复数谱,把这个复数谱送入第二个复数GAN网络里面训练。

 

算法的描述

为了在非并行训练条件下同时估计纯净语音的幅度谱和相位谱的信息,我们整个了一个幅度谱估计MCGAN和一个复数谱估计CCGAN作为一个cycle-in-cycle GAN。该提出的CINCGAN由一个前馈(带噪-纯净-带噪循环)和一个反馈(纯净-带噪-纯净循环)。在前馈循环,增强过程被分为两步。第一,将复数谱解耦为幅度谱和相位谱,这一阶段只处理幅度谱。G符号代表的是生成器,F代表的是逆生成器(从已经生成的纯净语音里面反过来生成带噪语音)。F复数代表的是将增强的复数谱逆生成为原始的带噪谱。为了更好地约束映射优化空间,一个反向的纯净-带噪-纯净循环也被设计并且和前向循环联合训练。在测试的时候,整个增强的过程可以表示为正向的生成器生成过程,不需要逆过程。

网络结构

幅度谱的GAN三部分组成:三个下采样层作为编码器,一个自适应注意力模块和三个上采样层作为解码器。每一个上采样和下采样模块是由普通(反)卷积组成。后跟着归一化和激活还有门控线性单元。提出的AIA模块是有六个ATFA模块和一个自整合自注意力模块AHA。ATFA包含俩个分支,一个是ATAB,一个是AFAB。这两支结合起来获得全局信息,AHA会把每一个ATFA模块的中间信息进行融合。

 

 

更详细的网络结构:

 

损失函数

损失函数有三个,分别是relativistic adversarial loss, cycle-consistency loss, and an identity map-
ping loss。

relativistic adversarial loss:

cycle-consistency loss, and an identity mapping loss:

MCGAN: 

 

 CinCGAN:

实验结果

      

结论

在本文中,我们提出了一种新的循环中循环GAN,称为CinCGAN,它可以联合恢复纯净语音的幅度和相位信息,用于非并行语音增强。在第一阶段,保留一个标准的幅度估计CycleGAN,只估计未配对数据下的幅度。在第二阶段,我们将预训练的CycleGAN与复数值的CycleGAN相结合,作为一个循环中循环的结构,以进一步细化幅度谱和恢复相位信息。更具体地说,CinCGAN旨在估计纯净语音复频谱的实成分和虚成分。在Voice Bank + DEMAND数据集上的综合实验表明,在不匹配的噪声-纯净语音对下,该方法始终优于原始的基于gan和基于cyclegan的基线。在标准并行数据上进行的实验也表明,该方法在提高语音质量和减少语音失真方面是有效的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值