CleanUNet 2:基于波形和频谱图的混合语音去噪模型

CleanUNet 2:基于波形和频谱图的混合语音去噪模型

第一章 语音增强之《CleanUNet 2: A Hybrid Speech Denoising Model on Waveform and Spectrogram》



前言

语音新手入门,学习读懂论文。
本文作者机构是加利福尼亚大学和英伟达。
在这里插入图片描述


一、任务

本文介绍了一种名为CleanUNet 2的混合语音去噪模型。它使用基于频谱图的去噪器和基于波形的去噪器作为子模块。使用CleanUNet作为基于波形的子模块,并引入CleanSpecNet作为基于频谱图的子模块。

二、动机

基于谱图的方法在中等噪声水平下工作良好,但在高噪声水平下会有明显的噪声泄漏,这主要是由于噪声语音的相位估计不准确。基于波形的方法在高噪声水平下能很好地防止噪声泄漏,但会有一些语音质量下降。为了进一步提高去噪质量,作者提出将频谱图和基于波形的去噪方法的优点结合起来。

三、挑战

不同的方法在高噪声水平下有不同的缺点。

四、方法

1.模型图

在这里插入图片描述
首先训练基于谱图的去噪器。然后,给出基于谱图的去噪器的预测谱图,训练基于波形的去噪器。在预测谱图上训练波形模型在语音合成中是有益的,因为它减少了两级系统中的误差传播。
CleanSpecNet由一堆卷积层组成,后跟一堆自注意力块 。每个卷积层由一个保留通道的1-D卷积(Conv1d)、(ReLU)、另一个通道加倍的Conv1d和(GLU)组成。每个Conv1d的卷积核大小为K,步幅为1。每个自注意力块包含:i) 一个拥有8个头、512个模型维度和因果关注掩码的多头自注意力层,以及 ii) 一个位置逐层全连接层。
作者使用CleanUNet架构作为基于波形的模型的主要组件,因此作者将混合模型命名为CleanUNet 2。它是灵活的,可以很容易地与任何基于频谱图的去噪器组合。

2.loss

在这里插入图片描述
其中Tspec 是谱图的长度。
在这里插入图片描述
其中{θ1,···,θm}为m个不同分辨率的STFT超参数。多分辨率STFT损失。

3. CleanUNet 2

在这里插入图片描述
由编码器层、自注意块(瓶颈)和解码器层组成,解码器层通过跳过连接与编码器层连接。作者用CleanSpecNet计算去噪的频谱图之后,通过2个转置的二维卷积对其进行256次上采样。
CleanUNet的超参数如下:它有8个编码器/解码器层,每个层的隐藏维度H = 64,步长S = 2,内核大小K = 4。它有5个自注意块,每个有8个头,模型维度= 512,无dropout,无位置编码。CleanSpecNet的超参数如下:它有5个卷积层,每个层的隐藏维度H = 64,步长S = 1,内核大小K = 4。它有5个自注意块和CleanUNet一样。

4.

五、实验评价

1.数据集

DNS 2020数据集包含441小时的干净语音(2150名说话者阅读书籍)和70K噪声片段,均为16kHz采样率。

2.消融实验

3.客观评价

i)语音质量的感知评价(PESQ,其中WB表示宽带,NB表示窄带),ii)短时客观可理解性(STOI),以及iii)语音信号失真(SIG),背景噪声侵入性(BAK)和c)整体质量(OVRL)的平均意见评分(MOS)预测。
在这里插入图片描述
对DNS无混响测试集去噪的客观和主观评价结果。

在这里插入图片描述
不同窗长和窗移对网络结果的影响。得出三点结论。首先,窗口长度为320的CleanSpecNet本身就是一种极具竞争力的去噪器。其次,CleanUNet 2总是优于CleanSpecNet。第三,发现对于CleanSpecNet,较小的窗口长度和跳跃大小导致更好的质量(见下划线分数),而对于CleanUNet 2则相反。
在这里插入图片描述

4.主观评价


六、结论

介绍了一种混合语音去噪模型CleanUNet 2。它首先应用基于频谱图的模型对频谱图进行降噪,然后使用它来调节基于波形的模型(CleanUNet),该模型输出降噪后的波形。对于这两个子模块,作者使用自注意力块来改进表示。在DNS上测试CleanUNet 2;它在客观和主观评价方面都达到了最先进的语音去噪质量。

七、知识小结

  • 19
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

budangdiyi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值