【WangDeLiangOverview2018】
Supervised Speech Separation Based on Deep Learning: An Overview
DeLiang Wang / Jitong Chen @ Ohio
IEEE/ACM Trans. ASLP2018
【目录】
1. 引入
2. 学习机器(learning machines)
3. 训练目标(training target)
4. 特征
5. 单声道分离
5.1 语音增强(speech separation)
5.2 语音增强的泛化
5.3 语音去混响 & 去噪(speech dereverberation & denoising)
5.4 说话人分离(speaker separation)
6. 多声道分离(阵列分离)
7. 讨论&总结
【正文】
本文对基于DNN的有监督语音分离进行了全面的概述。我们总结了监督分离的关键组成部分,即学习机器、训练目标和声学特征,解释了代表性的算法,并回顾了大量的相关研究。配方的分离问题,监督学习,基础款分离短几年大大升高的最先进的广泛的语音分离任务,包括单耳的语音增强,反混响的演讲中,演讲者分离,以及阵列语音分离。随着领域知识和数据驱动框架的更紧密集成,以及深度学习本身的进步,这种快速发展可能会继续下去。下面我们将讨论与此概述相关的几个概念性问题。
A. 特征VS学习机器
正如第4节所讨论的,特征对于语音分离是很重要的。然而,深度学习的一个主要吸引力是为一项任务学习