Dual-Signal Transformation LSTM Network for Real-Time Noise Suppression(DTLN模型)

前言

前面介绍了DNS-challenge 2020的第一名DCCRN模型,最近又看了一篇该比赛的论文Dual-Signal Transformation LSTM Network for Real-Time Noise Suppression——DTLN,该模型的官网给出了完整的模型代码和训练代码,后续有时间可以自己进行实验验证。

模型

DTLN模型主要通过两个阶段的噪声抑制来进行语音降噪,分别在频域和时域上进行降噪,该模型首先将输入的语音信号经过短时傅里叶变换(STFT)到频域上,然后将得到的语音信号在频域上的振幅和相位,接着将振幅传输到一个两层的长短记忆网络(LSTM),训练出第一个mask1,将mask1与频域的振幅信号点乘来完成第一次在频域上的降噪,完成第一次降噪后通过一个逆傅里叶变换将频域信号转回到时域作为第二次降噪的输入;该模型的第二阶段使用一个一维卷积在时域上提取特征,并进行归一化后同样输入到一个两层的LSTM进行训练,从而获得第二个mask2,此时将maks2与该阶段的经一维卷积卷积后的信号进行点乘完成第二次降噪,最后将清晰的语音信号变换到输入维度进行叠加输出。模型图如下:
在这里插入图片描述

模型的训练

该模型的官方论文中介绍了5种不同的模型结构,并在同参数尺度下进行了性能比较,上面提到的模型结构取得了最优性能,其他四种结构作为baseline。在训练中,LSTM的神经元设置为128,帧长32ms,位移为8ms,FFT的窗长512和帧长相等(采样率为16k)。一维卷积层有256个核,dropout为25%,batchsize为32,每段语音长15s,学习率初始为0.001,验证loss三个epoch不降,则学习率减半,十个epoch不降停止训练,使用Adam优化器,损失函数为 scale-sensitive negative SNR。

结果

在这里插入图片描述
NSNet,the noise suppression network,又比赛官方提供,其他B1、B2、B3和B4是不同的几个模型,B1表示只使用一个阶段,即在输入信号经过傅里叶变换后在通过4层LSTM,B2是使用一维卷积提取特征后经过4层LSTM,B3两个阶段都是用STFT来进行信号处理,B4表示两个阶段都使用一维卷积提取特征。
在这里插入图片描述
在这里插入图片描述
paper地址
代码地址

总结

该模型结构比较简单,理解起来较为容易,而且分别经过在时域和频域上的降噪使得性能较好,不过该模型在论文中虽然说有用到相位相关的信息,但是在模型学习训练的过程中,参与计算的还是只是振幅信息,只是在一维卷积中是综合的时域信息,如果在第一阶段频域信号处理中将相位信息也加入到计算不知道效果会不会更好,可以进行实验验证。

  • 6
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

糊涂小菜鸟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值