《CASCADED TIME + TIME-FREQUENCY UNET FOR SPEECH ENHANCEMENT:JOINTLY ADDRESSING CLIPPING》论文阅读

最新推荐文章于 2024-06-13 09:52:39 发布

qq_46079584

最新推荐文章于 2024-06-13 09:52:39 发布

阅读量2.5k

点赞数

文章标签：音视频其他

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46079584/article/details/123737654

版权

论文的全称是《CASCADED TIME + TIME-FREQUENCY UNET FOR SPEECH ENHANCEMENT: JOINTLY ADDRESSING CLIPPING, CODEC DISTORTIONS, AND GAPS》

研究动机

语音增强是用于处理噪声的，这篇文章是为了处理三种不常见的噪声而提出的。

INTRODUCTION

本文处理的三种噪声分别是speech clipping, codec distortions, gaps。首先，第一种噪声一种非线性噪声，它是当语音信号超过了麦克风录制的动态范围就会出现，而这个动态范围指的是麦克风输出最小信号和最大信号之间的差值，如果足够大的动态范围就能够最大程度的保留原始音质不发生失真。第二种噪声的出现是编码失真，当语音在传输的过程中出现的一种有损的传输。第三种噪声出现是因为网络的环境太差，这里的网络指的是IP网络。第三种噪声需要填充的方法进行填充。

本文主要的方式是联合起来处理三种噪声。

网络结构如下，采用了一个时域的UNET,一个频域的UNET实现联合处理。其中采用的卷积卷积核用的是5，步长是2。

下面这张图展示了如何进行的联合处理，首先，第一个网络处理掉的是speech clipping和gap噪声，第一个网络输出的是带codec类型噪声的带噪音频送入到第二个网络里面处理，输出目标是纯净语音。

数据准备

DNS数据集用于了训练和测试，所有的数据都是16khz。

实验

分别单独去除掉三种噪声和联合去除掉三种噪声：

总结

去除掉噪声效果挺好的，指标很高。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《CASCADED TIME + TIME-FREQUENCY UNET FOR SPEECH ENHANCEMENT:JOINTLY ADDRESSING CLIPPING》论文阅读

论文的全称是《CASCADED TIME + TIME-FREQUENCY UNET FOR SPEECH ENHANCEMENT: JOINTLY ADDRESSING CLIPPING, CODEC DISTORTIONS, AND GAPS》研究动机语音增强是用于处理噪声的，这篇文章是为了处理三种不常见的噪声而提出的。INTRODUCTION 本文处理的三种噪声分别是speech clipping, codec distortions, gaps。首先，第一种噪...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。