作者:Shubo Lv, Yanxin Hu, Shimin Zhang, Lei Xie
文末附文章地址和开源代码地址
1.动机
对DCCRN做了进一步的更新(有不了解DCCRN的小伙伴可以看我先前的文展)。
2.方法
1.将模型扩展到子带处理。
2.用TF-LSTM代替LSTM。
3.使用卷积块聚合编码器的输出,然后再送到解码器。
4.为解码器制定一个先验SNR估计模块,再去除噪声的同时保持良好的语音质量。
5.最后采用post-processing模块进一步抑制不自然的残余噪声。
3.网络架构
DCCRN+的整体网络架构如下图所示:
总体结构与DCCRN类似,但有以下区别:
1.在编码器/解码器之前/之后使用拆分/合并模块进行子带处理。
2) 用于频率和时间尺度时间建模的复杂 TF-LSTM。
3)在馈送到解码器之前,添加Convolution Pathway以更好地聚合来自编码器输出的信息。
4)增加SNR估计模块,以减轻噪声抑制过程中的语音失真。
5)Post-processing以进一步去除残余噪声。
3.1 TF-LSTM模块
TF-LSTM模块设计如下图: