《DCCRN+: Channel-wise Subband DCCRN with SNR Estimation for SpeechEnhancement》

本文的作者是Shubo Lv, Yanxin Hu, Shimin Zhang, Lei Xie,Audio, Speech and Language Processing Group (ASLP@NPU), School of Computer Science,Northwestern Polytechnical University, Xi'an, China。

本篇文章提出的模型是在DCCRN的基础上进行的改进,创新点在于用了子带处理(子带可以被神经网络过滤器分离或者合并),中间的lstm也被替换为复数的TF-LSTM,最后面不是直接将encoder的输出给了decoder,而是先将encoder的输出用卷积层把重要的信息整合起来,再提供给编码器。

研究动机

这个模型是参加了比赛的,展示了好的性能。指出很多的神经网络虽然压缩噪声起到了好的效果,但也引入了失真。所以也是想改善这个问题,提高语音的质量。

INTRODUCTION

       这篇文章很适合刚入门的同学。因为里面有许多的基本概念都提到了。

       首先介绍了一下语音增强的目标是提高语音的质量和可懂度,压缩噪声。之后表明传统的方法有谱减法----基于统计学处理的方法、基于深度学习的自监督方法。

      提到了两种降噪的方法,mapping和mask方法,mapping就是一一映射,输入的带噪的音频,得到的输出是去噪的音频,拿去噪的音频和原始的纯净语音(这个就是自监督里面说到的标签,标签的形式很多样,不要被猫狗分类中的‘dog’或者其他的给固化了,它可能就会是一段音频,动态的东西)做loss;第二种是mask,英文翻译过来就是掩蔽,基本的原理就是把从带噪语音种学习一种掩蔽的码,比如IBM,用这个码去把带噪音频种的噪声覆盖掉,得到的就是预测的干净语音。现在的码有很多,文章提到的有ideal binary mask (IBM), ideal ratio mask (IRM) and spectral magnitude mask (SMM),phase-sensitive mask (PSM) and complex ratio mask (CRM)。

       网络结构

              子带处理的目的是减小模型的尺寸,减小计算量。

              频谱上的局部特征和每一个频带是不同的:低频带有更高的能量,高频带有更低的能量,子带是通过engineered Finite Impulse Response (FIR) fifilters分开的。

放大了一些

 

首先是带噪音频变换到频域上后有两个分支,一个是直接进入滤波器,一个进入分离网络,分成子带频谱,进入到类似于CRN的复数结构里面,最后再将子带合并为整个频带,通过了后处理模块(是为了处理残余的噪声),在变换到频域上,输出干净语音。  从LSTM哪里接了一个SNR估计器, 为了提高语音质量(基于多任务,一支SNR估计器,一支干净语音)。

       复数的LSTM包括2个,一个是频域上的LSTM,一个是时域上的LSTM。

总的损失是用的分段信噪比的损失加上MSE的损失(SNR估计器那一支的损失函数)。

实验设置

        实验结果,这个是个比赛的数据。

       

 

在其他的数据集上测试得到的:

结论

       效果挺好的。

      

 

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值