《Conditional Generative Adversarial Networks for SE and Noise-Robust Speaker Verification》

最新推荐文章于 2024-07-31 08:30:00 发布

丿风起

最新推荐文章于 2024-07-31 08:30:00 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/fengqiyunfeiyangya/article/details/95944230

版权

本文探讨了条件生成对抗网络（cGAN）在语音增强（SE）中的潜力，特别是在嘈杂环境下的语音系统性能提升。通过调整Pix2Pix框架，cGAN学习从噪声语音谱图到增强谱图的映射，以提高语音质量和可懂度。实验结果显示，cGAN在PESQ、STOI和EER评估指标上优于传统SE方法STSA-MMSE，并与DNN-SE相当。

摘要由CSDN通过智能技术生成

摘要：在嘈杂环境中提高语音系统性能仍然是一项具有挑战性的任务，语音增强（SE）是解决该问题的有效技术之一。由于生成对抗网络（GAN）在各种图像处理任务中的有发展前景的实验结果，我们探索条件GAN（cGAN）对SE的潜力，特别是，我们利用Isola提出的图像处理框架[1] ]学习从嘈杂语音的谱图到增强对应物的映射。SEcGAN由两个以对抗方式训练的网络组成：一个试图增强输入噪声频谱图的生成器，以及一种判别器，以有噪声的谱图为条件，试图区分由生成器生成的增强谱图和数据集中干净语音的谱图。我们根据语音质量感知评估（PESQ），短时客观可懂度（STOI）和说话者验证的等错误率（EER）（示例应用）来评估cGAN方法的性能。实验结果表明，cGAN方法总体上优于经典的短时谱振幅最小均方误差（STSA-MMSE）SE算法，并且与基于深度神经网络的SE方法（DNN-SE）相当。

引言

处理降级的语音信号在许多应用中是一项具有挑战性但重要的任务，例如，自动说话人验证（ASV）[2]，语音识别[3]，移动通信和听力辅助设备[4,5,6]。当接收器是人类用户时，SE的目标是改善带噪语音信号的质量和可懂度。当它是自动语音系统时，目标是改善系统的噪声稳健性，例如，在不利条件下降低ASV系统的EER。在过去，这个问题已经用维纳滤波器和STSA-MMSE等统计方法解决[7]。最近，已经使用了深度学习方法，例如DNN [6,8]，深度自动编码器（DAE）[5]和卷积神经网络（CNN）[9]。但是，据我们所知，还没有人尝试过将GAN用于SE。

GANs是Goodfellow等人最近引入的一个框架。[10]由一个生成模型(generator, G)和一个判别模型(discriminative, D)组成，这两个模型之间进行最小-最大博弈。特别是，G试图欺骗D, D经过训练，能够区分G的输出和真实数据。目前[11]所采用的架构大多基于深卷积GAN (DCGAN)[12]，它成功地解决了GANs应用于高分辨率图像时的训练不稳定性问题。实现这一目标需要三个关键思想。首先，将批处理规范化[13]应用于大多数层。然后，网络被设计成没有像[14]中那样的池化层。最后，使用Adam优化器[15]执行培训。

到目前为止，GAN已成功应用于各种计算机视觉和图像处理任务[1,12,16,17]。然而，在语音相关的任务中的应用很少，文献[18]是个例外，作者将深层视觉模拟网络[19]作为GAN的生成器来实现语音转换，实验结果以音频文件呈现但是没有语音质量、可懂性等其他的评估。在相关领域，将GAN概念应用于古典音乐生成[20]的递归神经网络训练。

最近，一个通用的cGAN框架Pix2Pix被提出用于图像到图像的转换[1]。基于GANs在多个任务上的成功部署，我们对该框架进行了调整，旨在探索cGANs对SE的潜力，作为研究GANs在语音处理方面的可行性和性能的总体目标的一部分。具体来说，我们使用Pix2Pix来学习噪声和干净语音谱图之间的映射，以及学习训练映射的损失函数。