核心工作:提出一种通过最小化分离误差解决标签排列问题的排列不变训练技术。
基于类的方法:
1. 通过预测所属目标类的源来进行网络优化,通常用于每个时频块;
2. 只能用于语音与背景噪声或音乐的分离,因为语音具有与噪声/音乐非常不同的特征;很难与其他技术结合。
针对标签模糊问题解决核心:(参考Fig.1)
1. PIT
2. 基于分段的决策
实验结果(T1):
1. 训练阶段,MSE验证不会因为标签排列问题降低;相反使用PIT还可以使训练快速收敛到两、三声源的MSE
2. 测试阶段,默认分配没有声源追踪的PIT能够得到相近甚至更好的效果,与DPCL、DNN、CNN等比较,且结构更简单
3. 减少输出窗口大小时,可以提高窗口内的分离性能,并且进行选择性分配时得到更好的SDR
4. 减少输
置换性不变训练(PIT)单通道语音分离(SS)入门
最新推荐文章于 2023-12-21 17:46:36 发布