《Conditional Generative Adversarial Networks for SE and Noise-Robust Speaker Verification》

本文探讨了条件生成对抗网络(cGAN)在语音增强(SE)中的潜力,特别是在嘈杂环境下的语音系统性能提升。通过调整Pix2Pix框架,cGAN学习从噪声语音谱图到增强谱图的映射,以提高语音质量和可懂度。实验结果显示,cGAN在PESQ、STOI和EER评估指标上优于传统SE方法STSA-MMSE,并与DNN-SE相当。
摘要由CSDN通过智能技术生成

摘要:在嘈杂环境中提高语音系统性能仍然是一项具有挑战性的任务,语音增强(SE)是解决该问题的有效技术之一。由于生成对抗网络(GAN)在各种图像处理任务中的有发展前景的实验结果,我们探索条件GAN(cGAN)对SE的潜力,特别是,我们利用Isola提出的图像处理框架[1] ]学习从嘈杂语音的谱图到增强对应物的映射。SEcGAN由两个以对抗方式训练的网络组成:一个试图增强输入噪声频谱图的生成器,以及一种判别器,以有噪声的谱图为条件,试图区分由生成器生成的增强谱图和数据集中干净语音的谱图。我们根据语音质量感知评估(PESQ),短时客观可懂度(STOI)和说话者验证的等错误率(EER)(示例应用)来评估cGAN方法的性能。实验结果表明,cGAN方法总体上优于经典的短时谱振幅最小均方误差(STSA-MMSE)SE算法,并且与基于深度神经网络的SE方法(DNN-SE)相当。

引言

        处理降级的语音信号在许多应用中是一项具有挑战性但重要的任务,例如, 自动说话人验证(ASV)[2],语音识别[3],移动通信和听力辅助设备[4,5,6]。 当接收器是人类用户时,SE的目标是改善带噪语音信号的质量和可懂度。 当它是自动语音系统时,目标是改善系统的噪声稳健性,例如, 在不利条件下降低ASV系统的EER。 在过去,这个问题已经用维纳滤波器和STSA-MMSE等统计方法解决[7]。 最近,已经使用了深度学习方法,例如DNN [6,8],深度自动编码器(DAE)[5]和卷积神经网络(CNN)[9]。 但是,据我们所知,还没有人尝试过将GAN用于SE。

       GANs是Goodfellow等人最近引入的一个框架。[10]由一个生成模型(generator, G)和一个判别模型(discriminative, D)组成,这两个模型之间进行最小-最大博弈。特别是,G试图欺骗D, D经过训练,能够区分G的输出和真实数据。目前[11]所采用的架构大多基于深卷积GAN (DCGAN)[12],它成功地解决了GANs应用于高分辨率图像时的训练不稳定性问题。实现这一目标需要三个关键思想。首先,将批处理规范化[13]应用于大多数层。然后,网络被设计成没有像[14]中那样的池化层。最后,使用Adam优化器[15]执行培训。

       到目前为止,GAN已成功应用于各种计算机视觉和图像处理任务[1,12,16,17]。然而,在语音相关的任务中的应用很少,文献[18]是个例外,作者将深层视觉模拟网络[19]作为GAN的生成器来实现语音转换,实验结果以音频文件呈现但是没有语音质量、可懂性等其他的评估。在相关领域,将GAN概念应用于古典音乐生成[20]的递归神经网络训练。

最近,一个通用的cGAN框架Pix2Pix被提出用于图像到图像的转换[1]。基于GANs在多个任务上的成功部署,我们对该框架进行了调整,旨在探索cGANs对SE的潜力,作为研究GANs在语音处理方面的可行性和性能的总体目标的一部分。具体来说,我们使用Pix2Pix来学习噪声和干净语音谱图之间的映射,以及学习训练映射的损失函数。

 

Pix2Pix framework for speech enhancement

       在GAN中,G表示从随机噪声向量z到输出样本G(z)的映射函数,理想情况下与实际数据x [10]无法区分。 在cGAN中,G和D都以一些额外的信息y [1]为条件,并且他们在最小 - 最大游戏之后训练,目标是ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值