【WangDeLiangOverview2018】
Supervised Speech Separation Based on Deep Learning: An Overview
DeLiang Wang / Jitong Chen @ Ohio
IEEE/ACM Trans. ASLP2018
【目录】
1. 引入
2. 学习机器(learning machines)
3. 训练目标(training target)
4. 特征
5. 单声道分离
5.1 语音增强(speech separation)
5.2 语音增强的泛化
5.3 语音去混响 & 去噪(speech dereverberation & denoising)
5.4 说话人分离(speaker separation)
6. 多声道分离(阵列分离)
7. 更多内容
【摘要】
语音分离(speech separation)任务是将目标语音从背景干扰中分离出来。传统的语音分离被当作信号处理问题研究。一个近年来出现的方法是将语音分离抽象成一个监督学习(supervised learning)问题,基于训练数据对语音、说话人、背景噪声进行学习。特别是,近年来提出的使用深度学习的监督分离(supervised separation)大大加速了分离性能的发展和提高。文章提供一个过去几年基于深度学习的监督分离综述。首先,介绍语音分离的背景、监督分离的构造;然后,介绍监督分离的3个主要部分:学习机器(learning machine)、训练目标(training target)、声学特征(acoustic features)。接下来,文章的大部分放在对分离算法的回顾上,包括单通道方法(monaural):语音增强、说话人分离、去混响,以及多通道方法(multi-microphone)。泛化(generalization)对于监督学习很特殊,泛化中的关键问题也被讨论。
【正文】