《DCCRN+: Channel-wise Subband DCCRN with SNR Estimation for SpeechEnhancement》

最新推荐文章于 2022-04-25 11:52:22 发布

qq_46079584

最新推荐文章于 2022-04-25 11:52:22 发布

阅读量1.2k

点赞数

文章标签：音视频其他

本文链接：https://blog.csdn.net/qq_46079584/article/details/122588296

版权

本文的作者是Shubo Lv, Yanxin Hu, Shimin Zhang, Lei Xie，Audio, Speech and Language Processing Group (ASLP@NPU), School of Computer Science,Northwestern Polytechnical University, Xi'an, China。

本篇文章提出的模型是在DCCRN的基础上进行的改进，创新点在于用了子带处理（子带可以被神经网络过滤器分离或者合并），中间的lstm也被替换为复数的TF-LSTM，最后面不是直接将encoder的输出给了decoder,而是先将encoder的输出用卷积层把重要的信息整合起来，再提供给编码器。

研究动机

这个模型是参加了比赛的，展示了好的性能。指出很多的神经网络虽然压缩噪声起到了好的效果，但也引入了失真。所以也是想改善这个问题，提高语音的质量。

INTRODUCTION

这篇文章很适合刚入门的同学。因为里面有许多的基本概念都提到了。

首先介绍了一下语音增强的目标是提高语音的质量和可懂度，压缩噪声。之后表明传统的方法有谱减法----基于统计学处理的方法、基于深度学习的自监督方法。

提到了两种降噪的方法，mapping和mask方法，mapping就是一一映射，输入的带噪的音频，得到的输出是去噪的音频，拿去噪的音频和原始的纯净语音（这个就是自监督里面说到的标签，标签的形式很多样，不要被猫狗分类中的‘dog’或者其他的给固化了，它可能就会是一段音频，动态的东西）做loss；第二种是mask，英文翻译过来就是掩蔽，基本的原理就是把从带噪语音种学习一种掩蔽的码，比如IBM，用这个码去把带噪音频种的噪声覆盖掉，得到的就是预测的干净语音。现在的码有很多，文章提到的有ideal binary mask (IBM), ideal ratio mask (IRM) and spectral magnitude mask (SMM)，phase-sensitive mask (PSM) and complex ratio mask (CRM)。

网络结构

子带处理的目的是减小模型的尺寸，减小计算量。

频谱上的局部特征和每一个频带是不同的：低频带有更高的能量，高频带有更低的能量，子带是通过engineered Finite Impulse Response (FIR) fifilters分开的。

放大了一些

首先是带噪音频变换到频域上后有两个分支，一个是直接进入滤波器，一个进入分离网络，分成子带频谱，进入到类似于CRN的复数结构里面，最后再将子带合并为整个频带，通过了后处理模块（是为了处理残余的噪声），在变换到频域上，输出干净语音。从LSTM哪里接了一个SNR估计器，为了提高语音质量（基于多任务，一支SNR估计器，一支干净语音）。

复数的LSTM包括2个，一个是频域上的LSTM,一个是时域上的LSTM。

总的损失是用的分段信噪比的损失加上MSE的损失（SNR估计器那一支的损失函数）。

实验设置

实验结果，这个是个比赛的数据。

在其他的数据集上测试得到的：

结论

效果挺好的。

qq_46079584

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《DCCRN+: Channel-wise Subband DCCRN with SNR Estimation for SpeechEnhancement》

本文的作者是Shubo Lv, Yanxin Hu, Shimin Zhang, Lei Xie，Audio, Speech and Language Processing Group (ASLP@NPU), School of Computer Science,Northwestern Polytechnical University, Xi'an, China。本篇文章提出的模型是在DCCRN的基础上进行的改进，创新点在于用了子带处理（子带可以被神经网络过滤器分离或者合并），中间的lstm也被替换为
复制链接

扫一扫