【WangDeLiangOverview2018】
Supervised Speech Separation Based on Deep Learning: An Overview
DeLiang Wang / Jitong Chen @ Ohio
IEEE/ACM Trans. ASLP2018
【目录】
1. 引入
2. 学习机器(learning machines)
3. 训练目标(training target)
4. 特征
5. 单声道分离
5.1 语音增强(speech separation)
5.2 语音增强的泛化
5.3 语音去混响 & 去噪(speech dereverberation & denoising)
5.4 说话人分离(speaker separation)
6. 多声道分离(阵列分离)
7. 更多内容
【正文】
作为输入的特征,和学习机器(learning machine)一起在监督学习中起着互补的作用。当特征是有区别(discriminative)的时候,为了成功地完成任务,它们对学习机的要求更少。另一方面,强大的学习机对特征的要求较低。一个极端是,一个线性分类器,像Rosenblatt的感知机(perceptron),便是一切所需,如果特征使得任务是线性可分的。在另一个极端,如果分类器能够学习到适当的特征,那么没有任何特征提取的原始形式的输入(例如音频中的波形)就足够了。在这两者之间的大部分任务中,特征提取和学习都很重要。
早期监督分离的研究只使用了少数几个特征,如双通道分离(binaural separation)中使用的双耳时间差ITD(Interaural Time Differences)和双耳水平/强度差IID(Interaural Intensity differences)[141],单通道分离(monoaural separation)中使用的基于音调(pitch-based)的特征[91][78][55]和幅度调制谱图AMS(Amplitude Mo