论文名字《ICASSP 2021 DEEP NOISE SUPPRESSION CHALLENGE: DECOUPLING MAGNITUDE AND PHASE OPTIMIZATION WITH A TWO-STAGE DEEP NETWORK》,
作者是Andong Li , Wenzhe Liu, Xiaoxue Luo, Chengshi Zheng , Xiaodong Li
研究动机
真实的声学场景中被噪声污染了的音频数据恢复起来是一个比较艰难的任务。为了解决这个问题,本文提出了一种新的方式,中心思想是把幅度和相位解耦,就是各自处理各自的,主要是由两个管道组成,在第一个管道中由两个子网络组成,第一个子网络叫做CME-Net,这个网络做的事情就是大多数网络都在做的事情,就是把带噪的幅度输入到网络中,网络的输出就是去除掉噪声的幅度,再结合带噪的相位组成复数谱;第二个子网络叫做CSR-Net,这个网络模块主要处理的是相位,再稍微细化一下幅度,输入到这个网络里面的是CME-Net处理完的复数谱CSS再加上原始的带噪复数谱,得到的结果就是实部和虚部;到这里结束,就实现了幅度和相位的解耦。第二个管道是一个后处理模块,为了处理剩余的非自然噪声。网络的结构如下,两个子网络模块都采用了TCM的结构,前者是传统的模块,后者是提出了轻量级的,为了减少参数量而改进的模块。网络图显示如下:(TCM用的是图a和c)
![](https://i-blog.csdnimg.cn/blog_migrate/2e30e2240b0e5d82f0ec01e99b745385.png)
实验
实验是在WSJ0SI-84数据集下训练和测试的,进行了一轮评估,用的指标是PESQ和ESTOI,发现指标结果是不错,但是有处理模块比没有的客观指标反而差,论文中给到了一种解释就是因为后处理模块压缩的是一些非自然噪声,在低信噪比的情况下,会把一些语音也给压缩了,所以效果差了。实验结果如图(而后在DNS的数据集上微调了一下,参加的比赛获得的第一名):
本文还做了一个AB测试,所谓的AB测试就是偏好类测试,论文中是随机选择了10个人去听增强后的语音,有后处理和没有后处理模型处理完的语音,选取的句子有情感类、英语、非英语、唱歌类的,让这10个人去评价得到MOS分数,这个就是主观偏好,发现结果主观上来讲,后处理的模块处理的效果更好。所以从这里也可以证明,主观和客观在效果上不一定等价。