Dual-Signal Transformation LSTM Network for Real-Time Noise Suppression(DTLN模型)

最新推荐文章于 2024-08-18 10:29:16 发布

糊涂小菜鸟

最新推荐文章于 2024-08-18 10:29:16 发布

阅读量3k

点赞数 6

分类专栏：语音识别文章标签： lstm 语音识别深度学习

本文链接：https://blog.csdn.net/weixin_43245268/article/details/119924218

版权

语音识别专栏收录该内容

6 篇文章 3 订阅

订阅专栏

前言

前面介绍了DNS-challenge 2020的第一名DCCRN模型，最近又看了一篇该比赛的论文Dual-Signal Transformation LSTM Network for Real-Time Noise Suppression——DTLN，该模型的官网给出了完整的模型代码和训练代码，后续有时间可以自己进行实验验证。

模型

DTLN模型主要通过两个阶段的噪声抑制来进行语音降噪，分别在频域和时域上进行降噪，该模型首先将输入的语音信号经过短时傅里叶变换(STFT)到频域上，然后将得到的语音信号在频域上的振幅和相位，接着将振幅传输到一个两层的长短记忆网络(LSTM)，训练出第一个mask1，将mask1与频域的振幅信号点乘来完成第一次在频域上的降噪，完成第一次降噪后通过一个逆傅里叶变换将频域信号转回到时域作为第二次降噪的输入；该模型的第二阶段使用一个一维卷积在时域上提取特征，并进行归一化后同样输入到一个两层的LSTM进行训练，从而获得第二个mask2，此时将maks2与该阶段的经一维卷积卷积后的信号进行点乘完成第二次降噪，最后将清晰的语音信号变换到输入维度进行叠加输出。模型图如下：
在这里插入图片描述

模型的训练

该模型的官方论文中介绍了5种不同的模型结构，并在同参数尺度下进行了性能比较，上面提到的模型结构取得了最优性能，其他四种结构作为baseline。在训练中，LSTM的神经元设置为128，帧长32ms，位移为8ms，FFT的窗长512和帧长相等(采样率为16k)。一维卷积层有256个核，dropout为25%，batchsize为32，每段语音长15s，学习率初始为0.001，验证loss三个epoch不降，则学习率减半，十个epoch不降停止训练，使用Adam优化器，损失函数为 scale-sensitive negative SNR。

结果

在这里插入图片描述
NSNet，the noise suppression network，又比赛官方提供，其他B1、B2、B3和B4是不同的几个模型，B1表示只使用一个阶段，即在输入信号经过傅里叶变换后在通过4层LSTM，B2是使用一维卷积提取特征后经过4层LSTM，B3两个阶段都是用STFT来进行信号处理，B4表示两个阶段都使用一维卷积提取特征。
在这里插入图片描述

paper地址
 代码地址

总结

该模型结构比较简单，理解起来较为容易，而且分别经过在时域和频域上的降噪使得性能较好，不过该模型在论文中虽然说有用到相位相关的信息，但是在模型学习训练的过程中，参与计算的还是只是振幅信息，只是在一维卷积中是综合的时域信息，如果在第一阶段频域信号处理中将相位信息也加入到计算不知道效果会不会更好，可以进行实验验证。

糊涂小菜鸟

关注

6
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
Dual-Signal Transformation LSTM Network for Real-Time Noise Suppression(DTLN模型)

前言前面介绍了DNS-challenge 2020的第一名DCCRN模型
复制链接

扫一扫