PIT2017：深度学习中语音分离的置换不变性训练-CSDN博客

本文链接：https://blog.csdn.net/FonFon27/article/details/113811716

PIT2017提出了置换不变性训练，解决了多说话人、说话人无关语音分离的permutation problem。通过直接最小化分离误差，该方法使端到端DNN可用于此任务。实验显示，即使不依赖聚类，PIT也能有效降低分离损失，并在不同数据集和语言上展现出良好的泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【论文】

Permutation Invariant Training of Deep Models for Speaker-independent Multi-talker Speech Separation，ICASSP 2017，Dong Yu @ Microsoft

【P.S.】

这个研究的主要贡献在于提出置换不变性训练PIT，使得端到端DNN方法用于多说话人+说话人无关的语音分离成为可能。当然PIT本身只解决permutation problem，关注的是训练问题，而没有限制是否一定要在变换域做分离(例如TasNet使用了PIT，但TasNet没有在变换域操作)

【0. 摘要】

直接最小化separation error来解决permutation problem，从而使得DNN可以用于multi-talker speaker-independent的说话人分离

【1. 引入】

较早的语音分离方法：

1. CASA

2. NMF

3. facotrial GMM-HMM

近来只有2种方法解决speaker-independent说话人分离里的permutation problem：

1. Weng方法

2. DPCL2016，问题：假设了每个T-F unit只属于1个说话人(因为聚类)

先前的方法只从2种角度看待语音分离：

1. multi-class regression：class-based方法在speaker-independent里出现的问题可以详见DPCL2016论文

2. clustering/segmentation：即DPCL2016的方法

而PIT2017重新从separation角度来看待speaker-independent multi-talker speech separation，即直接最小化separation loss。PIT首先决定assignment。然后最小化这个assignment的源估计误差，好处在于这个策略能够直接用nn实现(而不像DPCL2016要聚类)，具体细节见【PIT】。

PIT2017笔记