《NEURAL NOISE EMBEDDING FOR END-TO-END SPEECHENHANCEMENT WITH CONDITIONAL LAYER NORMALIZATION》论文阅读

qq_46079584

已于 2022-03-25 15:40:33 修改

阅读量2.4k

点赞数

文章标签：音视频其他

于 2022-03-25 15:38:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46079584/article/details/123736411

版权

研究动机

大多数的语音增强方法都是考虑了带噪语音和纯净语音之间的关系，但是没有考虑到噪声。为了处理很多种噪声场景，本文引入了一种·新的噪声结构，将噪声的高维特征用于到自动微分编码器。在这篇文章中，加入了一个CLN的归一化层来处理噪声，提高模型的泛化性能。

INTRODUCTION

因为很多增强方法只考虑从带噪语音中评估纯净语音。但是，很多的噪声类型不匹配问题会出现，为了解决这个问题，就把噪声的高维特征当作一个额外的条件送入到网络里面。

这篇论文中，作者们提出了一个新的条件归一化方法，在时域上进行处理。带噪的音频送入到一个噪声估计忘了中提取到噪声的高维特征，之后将高维特征进行降维，送到增强网络里面。

提出的方法中，整个结构是由噪声估计网络、CNN网络，一个增强网络，增强网络包含了输入层，编码器，解码器和输出层。

把噪声网络估计到的噪声高维特征进行降维后，送入到CLN层，CLN是由线性层和归一化操作组成。

下面是噪声估计网络和降维的网络：

数据准备

用的是TIMIT数据集，训练集、验证集和测试集分别是1000，200，100句。噪声数据集来源于NOISE-92和一个非语音的数据集作为训练的噪声。信噪比分别是-5，10，1分贝。每一条语句用三种信噪比和4种噪声类型混合。测试的时候是分看得见和看不见的情况。

时域是2048个采样点，1024个窗移。用到的SM损失采样点是512，256是窗移。

实验结果

实验结果包含看得见和看不见两种情况：

总结

这篇文章比较新颖的地方是考虑到了噪声，把噪声当作一种条件来进行处理，可以处理多种噪声场景。但是在输入到增强网络中只用到了噪声的高维特征表示，没有用到最终的噪声估计结果。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
《NEURAL NOISE EMBEDDING FOR END-TO-END SPEECHENHANCEMENT WITH CONDITIONAL LAYER NORMALIZATION》论文阅读

研究动机大多数的语音增强方法都是考虑了带噪语音和纯净语音之间的关系，但是没有考虑到噪声。为了处理很多种噪声场景，本文引入了一种·新的噪声结构，将噪声的高维特征用于到自动微分编码器。在这篇文章中，加入了一个CLN的归一化层来处理噪声，提高模型的泛化性能。INTRODUCTION 因为很多增强方法只考虑从带噪语音中评估纯净语音。但是，很多的噪声类型不匹配问题会出现，为了解决这个问题，就把噪声的高维特征当作一个额外的条件送入到网络里面。这篇论文中，作者们提出了...
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。