论文阅读:《A Wavenet For Speech Denoising》

论文地址:A Wavenet For Speech Denoising

项目地址:Github-speech-denoising-wavenet

其他资料:演示地址

摘要

  • 目前,大多数语音处理技术使用幅度谱图作为前端,因此默认放弃信号的一部分:相位。为了克服这一局限性,我们提出了一种基于Wavenet的语音去噪端到端学习方法。所提出的模型自适应保留了Wavenet强大的声学建模能力,同时通过消除其自回归特性,显著降低了时间复杂度。具体来说,该模型使用非因果膨胀卷积预测目标域,而非单一目标样本。我们提出的模型的判别式自适应是通过最小化回归损失以监督的方式学习的。这些修改使得模型在训练和推理过程中具有高度的并行性。 计算评价和感知评价均表明,该方法优于常用的基于幅度谱图处理的维纳滤波方法

1. 介绍

  • 在过去的几十年中,机器学习已经为复杂的问题提供了解决方案,这些问题以前是信号处理技术无法实现的[4,12,38]。 语音识别就是其中的一个问题,其中机器学习产生了非常强烈的影响。然而,直到今天,标准做法不是直接在时域中工作,而是明确地使用时频表示作为输入[1,34,35],以降低原始波形的高维性。 同样,大多数语音去噪技术都使用幅度谱图作为前端[13、17、21、34、36]。 然而,这种做法的缺点是**丢弃潜在的有价值的信息(相位)**并利用通用特征提取器(幅度谱图分析),而不是学习给定数据分布的特定特征表示。

  • 最近已经证明神经网络在处理离散音频信号样本之间的结构化时间依赖性方面是有效的。例如,考虑语音波形的最局部结构(≈几十毫秒)。在此范围内,可以捕获说话者(音色)的许多声音特征,语音中的语言模式也可以通过音素的形式被理解。需要注意的是,这些层次的结构并不是离散的,这使得明确关注不同层次结构的技术注定不是最优的。这表明,能够直接从原始音频中学习多尺度结构的深度学习方法在学习这些结构方面可能具有很大的潜力。为此,判别模型被用于端到端学习音乐[6,15]或语音分类[5,20,39]。原始音频波形也被成功地用于生成任务[7,18,30,22]。有趣的是,大多数这些生成模型都是自回归的[7,18,30],SEGAN除外——它是基于生成对抗网络[22]。我们不知道任何生成原始音频模型是基于变分自编码器的。

  • 之前的讨论激发了我们对采用Wavenet模型(自回归生成模型)进行语音去噪的研究。我们的主要假设是,通过从原始音频中学习多尺度层次表示,我们可以克服使用幅度谱图作为此任务的前端的固有局限性。 在这个方向上已经存在一些工作。 80年代,Tamura等人[27]使用四层前馈网络直接在原始音频域操作,以学习降噪映射。 最近,Pascual等人[22]提出使用端到端生成对抗网络进行语音去噪,Qian等人[24]使用贝叶斯Wavenet进行语音去噪。在这三种情况下,它们提供的结果均优于基于处理幅度谱图的同类方法。

  • 第2节描述了原始Wavenet架构,第3节描述了我们提出的修改方案。在第4节中,我们将实验并讨论一些架构参数。最后,第5节以突出最相关的贡献作为结尾。

2. Wavenet

  • Wavenet能够合成自然发声语音[30]。给定先前样本的某些片段后,此自回归模型将生成下一个样本的概率分布。下一个样本是从这个分布中采样产生的。将之前生成的样本按顺序输入到模型中,从而产生完整的样本序列,从而增强结果音频波形的时间连续性。图1给出了模型的高级可视化描述。Wavenet是PixelCNN图像生成模型的音频域自适应[19,31]。Wavenet保留了PixelCNN的许多特征,如:因果关系门控卷积单元离散softmax输出分布以及在引入膨胀卷积和非线性量化[30]的同时调节模型的可能性。下面介绍了Wavenet的一些关键特性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值