《LEARNING DISENTANGLED FEATURE REPRESENTATIONS FOR SPEECH ENHANCEMENT VIA ADVERSARIAL TRAINING》

qq_46079584

已于 2022-01-20 19:29:12 修改

阅读量1.1k

点赞数

文章标签：音视频其他

于 2022-01-17 19:34:59 首次发布

本文链接：https://blog.csdn.net/qq_46079584/article/details/122545109

版权

本文的作者是Nana Hou , Chenglin Xu , Eng Siong Chng , Haizhou Li；School of Computer Science and Engineering, Nanyang Technological University, Singapore，Department of Electrical and Computer Engineering, National University of Singapore, Singapore，Temasek Laboratories, Nanyang Technological University, Singapore，Machine Listening Lab, University of Bremen, Germany。

研究动机

对看不见的噪声（训练的时候没见过），语音增强的性能会下降。为了处理这个问题，提出通过disentanglement learning可以学到一种噪声不可知（noise-agnostic）的特征表示，进而可以把这种非特定的噪声因素去除掉，同时还能保持干净语音，达到提高性能的目的。

INTRODUCTION

内容和动机一样，受disentanglement learning启发，提出了一种噪声对抗式训练（NAT:noise adversarial training）网络来获得噪声不可知的特征表示。

网络结构

encoder学习了噪声不可知的表示， the disentangler module 预测的是噪声的类别，其中，GRL模块去掉不可知噪声，反向传播使得encoder更好的学习噪声不可知的特征表示，TCN根据不可知的特征表示预测它对应的掩码，以此过滤掉噪声；decoder用来重建波形。

实验数据

使用了一个公共数据库，有11572条单声道音频样本用来训练，824条单声道音频样本用来测试，16khz，训练集有10种噪声，测试集有5种看不见的噪声。被分成1秒的帧，Adam优化器，学习率=0.001。

所有评价指标都是越高越好。

层数的多少、是否有DM、和其他的模型对比分别如下图：

结果

层数的对比发现4层的是比较好的，但是2层的参数要比4层的少一些。第二个实验同一种模型用了解离化比不用的效果好，两种模型都用了解离化，本文提出的模型效果更好一些，而且参数量也少。第三个实验就是各大模型对比，还是本文提出的效果比较好。

额外

研究你为啥看着淘宝想剁手，阿里达摩院论文登上NeurIPS 2019 | 量子位 (qbitai.com)

解离化（disentangler）是指将embedding拆分成不同维度，使得每个维度可以代表一种语义。我理解的是每一个维度代表的语义都是独立的，比如在人的认知中，歌曲声和说话声虽然都是声音，但不是同一种声音，因为歌曲有伴奏，所以这两种声音可以用向量表征，如果关注歌曲声时，可以忽略掉人说话的声音（不是歌曲当中唱歌的声音）。

生词

noise-agnostic 噪声不可知

qq_46079584

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫