《CASCADED TIME + TIME-FREQUENCY UNET FOR SPEECH ENHANCEMENT:JOINTLY ADDRESSING CLIPPING》论文阅读

论文的全称是《CASCADED TIME + TIME-FREQUENCY UNET FOR SPEECH ENHANCEMENT: JOINTLY ADDRESSING CLIPPING, CODEC DISTORTIONS, AND GAPS

研究动机

       语音增强是用于处理噪声的,这篇文章是为了处理三种不常见的噪声而提出的。

INTRODUCTION

      本文处理的三种噪声分别是speech clipping, codec distortions, gaps。首先,第一种噪声一种非线性噪声,它是当语音信号超过了麦克风录制的动态范围就会出现,而这个动态范围指的是麦克风输出最小信号和最大信号之间的差值,如果足够大的动态范围就能够最大程度的保留原始音质不发生失真。第二种噪声的出现是编码失真,当语音在传输的过程中出现的一种有损的传输。 第三种噪声出现是因为网络的环境太差,这里的网络指的是IP网络。第三种噪声需要填充的方法进行填充。

      本文主要的方式是联合起来处理三种噪声。

       网络结构如下,采用了一个时域的UNET,一个频域的UNET实现联合处理。其中采用的卷积卷积核用的是5,步长是2。

 

       下面这张图展示了如何进行的联合处理,首先,第一个网络处理掉的是speech clipping和gap噪声,第一个网络输出的是带codec类型噪声的带噪音频送入到第二个网络里面处理,输出目标是纯净语音。

数据准备

       DNS数据集用于了训练和测试,所有的数据都是16khz。

实验

      分别单独去除掉三种噪声和联合去除掉三种噪声:

 

总结

      去除掉噪声效果挺好的,指标很高。 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值