本文的作者是Nana Hou , Chenglin Xu , Eng Siong Chng , Haizhou Li;School of Computer Science and Engineering, Nanyang Technological University, Singapore,Department of Electrical and Computer Engineering, National University of Singapore, Singapore,Temasek Laboratories, Nanyang Technological University, Singapore,Machine Listening Lab, University of Bremen, Germany。
研究动机
对看不见的噪声(训练的时候没见过),语音增强的性能会下降。为了处理这个问题,提出通过disentanglement learning可以学到一种噪声不可知(noise-agnostic)的特征表示,进而可以把这种非特定的噪声因素去除掉,同时还能保持干净语音,达到提高性能的目的。
INTRODUCTION
内容和动机一样,受disentanglement learning启发,提出了一种噪声对抗式训练(NAT:noise adversarial training)网络来获得噪声不可知的特征表示。
网络结构
encoder学习了噪声不可知的表示, the disentangler module 预测的是噪声的类别,其中,GRL模块去掉不可知噪声,反向传播使得encoder更好的学习噪声不可知的特征表示,TCN根据不可知的特征表示预测它对应的掩码,以此过滤掉噪声;decoder用来重建波形。
实验数据
使用了一个公共数据库,有11572条单声道音频样本用来训练,824条单声道音频样本用来测试,16khz,训练集有10种噪声,测试集有5种看不见的噪声。被分成1秒的帧,Adam优化器,学习率=0.001。
所有评价指标都是越高越好。
层数的多少、是否有DM、和其他的模型对比分别如下图:
结果
层数的对比发现4层的是比较好的,但是2层的参数要比4层的少一些。第二个实验同一种模型用了解离化比不用的效果好,两种模型都用了解离化,本文提出的模型效果更好一些,而且参数量也少。第三个实验就是各大模型对比,还是本文提出的效果比较好。
额外
研究你为啥看着淘宝想剁手,阿里达摩院论文登上NeurIPS 2019 | 量子位 (qbitai.com)
生词
noise-agnostic 噪声不可知