PIT2017笔记

PIT2017提出了置换不变性训练,解决了多说话人、说话人无关语音分离的permutation problem。通过直接最小化分离误差,该方法使端到端DNN可用于此任务。实验显示,即使不依赖聚类,PIT也能有效降低分离损失,并在不同数据集和语言上展现出良好的泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【论文】

Permutation Invariant Training of Deep Models for Speaker-independent Multi-talker Speech Separation,ICASSP 2017,Dong Yu @ Microsoft

【P.S.】

这个研究的主要贡献在于提出置换不变性训练PIT,使得端到端DNN方法用于多说话人+说话人无关的语音分离成为可能。当然PIT本身只解决permutation problem,关注的是训练问题,而没有限制是否一定要在变换域做分离(例如TasNet使用了PIT,但TasNet没有在变换域操作)

 

【0. 摘要】

直接最小化separation error来解决permutation problem,从而使得DNN可以用于multi-talker speaker-independent的说话人分离

【1. 引入】

较早的语音分离方法:

1. CASA

2. NMF

3. facotrial GMM-HMM

近来只有2种方法解决speaker-independent说话人分离里的permutation problem:

1. Weng方法

2. DPCL2016,问题:假设了每个T-F unit只属于1个说话人(因为聚类)

先前的方法只从2种角度看待语音分离:

1. multi-class regression:class-based方法在speaker-independent里出现的问题可以详见DPCL2016论文

2. clustering/segmentation:即DPCL2016的方法

而PIT2017重新从separation角度来看待speaker-independent multi-talker speech separation,即直接最小化separation loss。PIT首先决定assignment。然后最小化这个assignment的源估计误差,好处在于这个策略能够直接用nn实现(而不像DPCL2016要聚类),具体细节见【PIT】。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值