深度吸引子网络 Deep attractor Net单通道语音分离文献汇总

本文主要介绍了基于深度吸引子网络(DANet)的单通道语音分离技术。DANet通过在高维空间中嵌入吸引子解决了语音分离的排序问题和输出维度不匹配问题。与深度聚类(DPCL)和置换不变训练(PIT)相比,DANet在端到端训练和性能上具有优势。在三说话人的情况下,DANet表现出更优的效果。此外,文章还探讨了DANet与其他声源分离方法的比较,包括统计方法、聚类法、因式分解法和经典深度学习法。实验表明,DANet在不同声源数量的场景下都能有效分离语音,尤其是在三声源情况下表现突出。
摘要由CSDN通过智能技术生成

论文一:(DANet)基于单麦克风语音分离的深度吸引子网络
核心工作:提出了在高维空间中嵌入吸引子(Attractor)将时频信息整合来训练的网络,模型实现了端到端的训练,分离不需要知道混合源的数量。
在这里插入图片描述
分离的难点:
1. 排序问题:混合语音会出现多个标签,无法分清属于哪个;
2. 输出维度不匹配(标签不明确):不清楚具体有几个声源
深度聚类(DPCL)特点:能解决以上两点问题,但目标函数是各声源之间的关联性,因此不能执行端到端的映射。
置换不变训练(PIT)特点:该方法假设声源数量固定,因此存在输出维度不匹配的问题,由于样本段和样本内之间排列不一致,预测窗口要远小于上下文窗口(context window)
吸引子:提出这种感知效应表明,大脑回路产生感知吸引子(磁铁),使刺激空间扭曲,从而吸引离刺激空间最近的声音,这种现象被称为“感知磁铁效应”.
测试阶段的吸引子设置:
1. 类似于DC的使用K均值算法确定中心;
2. 实验发现吸引子位置相对稳定,因此可以通过观测得出。
与DC对比:
1. 基本的DAN已经超过DC性能了
2. 不断调整吸引子的形成效果更好,如联合优化网络参数
3. 运用课程培训策略(curriculum traini

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值