【论文】
Permutation Invariant Training of Deep Models for Speaker-independent Multi-talker Speech Separation,ICASSP 2017,Dong Yu @ Microsoft
【P.S.】
这个研究的主要贡献在于提出置换不变性训练PIT,使得端到端DNN方法用于多说话人+说话人无关的语音分离成为可能。当然PIT本身只解决permutation problem,关注的是训练问题,而没有限制是否一定要在变换域做分离(例如TasNet使用了PIT,但TasNet没有在变换域操作)
【0. 摘要】
直接最小化separation error来解决permutation problem,从而使得DNN可以用于multi-talker speaker-independent的说话人分离
【1. 引入】
较早的语音分离方法:
1. CASA
2. NMF
3. facotrial GMM-HMM
近来只有2种方法解决speaker-independent说话人分离里的permutation problem:
1. Weng方法
2. DPCL2016,问题:假设了每个T-F unit只属于1个说话人(因为聚类)
先前的方法只从2种角度看待语音分离:
1. multi-class regression:class-based方法在speaker-independent里出现的问题可以详见DPCL2016论文
2. clustering/segmentation:即DPCL2016的方法
而PIT2017重新从separation角度来看待speaker-independent multi-talker speech separation,即直接最小化separation loss。PIT首先决定assignment。然后最小化这个assignment的源估计误差,好处在于这个策略能够直接用nn实现(而不像DPCL2016要聚类),具体细节见【PIT】。