《LEARNING DISENTANGLED FEATURE REPRESENTATIONS FOR SPEECH ENHANCEMENT VIA ADVERSARIAL TRAINING》

本文的作者是Nana Hou , Chenglin Xu , Eng Siong Chng , Haizhou Li;School of Computer Science and Engineering, Nanyang Technological University, Singapore,Department of Electrical and Computer Engineering, National University of Singapore, Singapore,Temasek Laboratories, Nanyang Technological University, Singapore,Machine Listening Lab, University of Bremen, Germany。

研究动机

        对看不见的噪声(训练的时候没见过),语音增强的性能会下降。为了处理这个问题,提出通过disentanglement  learning可以学到一种噪声不可知(noise-agnostic)的特征表示,进而可以把这种非特定的噪声因素去除掉,同时还能保持干净语音,达到提高性能的目的。

INTRODUCTION

         内容和动机一样,受disentanglement learning启发,提出了一种噪声对抗式训练(NAT:noise adversarial training)网络来获得噪声不可知的特征表示。

网络结构

                

     encoder学习了噪声不可知的表示, the disentangler module 预测的是噪声的类别,其中,GRL模块去掉不可知噪声,反向传播使得encoder更好的学习噪声不可知的特征表示,TCN根据不可知的特征表示预测它对应的掩码,以此过滤掉噪声;decoder用来重建波形。

 实验数据

        使用了一个公共数据库,有11572条单声道音频样本用来训练,824条单声道音频样本用来测试,16khz,训练集有10种噪声,测试集有5种看不见的噪声。被分成1秒的帧,Adam优化器,学习率=0.001。

所有评价指标都是越高越好。

层数的多少、是否有DM、和其他的模型对比分别如下图:

   

 

结果

        层数的对比发现4层的是比较好的,但是2层的参数要比4层的少一些。第二个实验同一种模型用了解离化比不用的效果好,两种模型都用了解离化,本文提出的模型效果更好一些,而且参数量也少。第三个实验就是各大模型对比,还是本文提出的效果比较好。

额外

研究你为啥看着淘宝想剁手,阿里达摩院论文登上NeurIPS 2019 | 量子位 (qbitai.com)

解离化(disentangler)是指将embedding拆分成不同维度,使得每个维度可以代表一种语义。我理解的是每一个维度代表的语义都是独立的,比如在人的认知中,歌曲声和说话声虽然都是声音,但不是同一种声音,因为歌曲有伴奏,所以这两种声音可以用向量表征,如果关注歌曲声时,可以忽略掉人说话的声音(不是歌曲当中唱歌的声音)。

生词

     noise-agnostic  噪声不可知  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值