深度吸引子网络 Deep attractor Net单通道语音分离文献汇总

最新推荐文章于 2022-03-08 17:04:36 发布

dakenan1

最新推荐文章于 2022-03-08 17:04:36 发布

阅读量1.3k

点赞数

分类专栏：语音增强文章标签：深度吸引子 DAN 语音分离

本文链接：https://blog.csdn.net/dakenan1/article/details/100011813

版权

本文主要介绍了基于深度吸引子网络(DANet)的单通道语音分离技术。DANet通过在高维空间中嵌入吸引子解决了语音分离的排序问题和输出维度不匹配问题。与深度聚类(DPCL)和置换不变训练(PIT)相比，DANet在端到端训练和性能上具有优势。在三说话人的情况下，DANet表现出更优的效果。此外，文章还探讨了DANet与其他声源分离方法的比较，包括统计方法、聚类法、因式分解法和经典深度学习法。实验表明，DANet在不同声源数量的场景下都能有效分离语音，尤其是在三声源情况下表现突出。

摘要由CSDN通过智能技术生成

论文一：(DANet)基于单麦克风语音分离的深度吸引子网络
核心工作：提出了在高维空间中嵌入吸引子（Attractor）将时频信息整合来训练的网络，模型实现了端到端的训练，分离不需要知道混合源的数量。
在这里插入图片描述
分离的难点：
1. 排序问题：混合语音会出现多个标签，无法分清属于哪个；
2. 输出维度不匹配（标签不明确）：不清楚具体有几个声源
深度聚类（DPCL）特点：能解决以上两点问题，但目标函数是各声源之间的关联性，因此不能执行端到端的映射。
置换不变训练（PIT）特点：该方法假设声源数量固定，因此存在输出维度不匹配的问题，由于样本段和样本内之间排列不一致，预测窗口要远小于上下文窗口（context window）
吸引子：提出这种感知效应表明，大脑回路产生感知吸引子(磁铁)，使刺激空间扭曲，从而吸引离刺激空间最近的声音，这种现象被称为“感知磁铁效应”.
测试阶段的吸引子设置：
1. 类似于DC的使用K均值算法确定中心；
2. 实验发现吸引子位置相对稳定，因此可以通过观测得出。
与DC对比：
1. 基本的DAN已经超过DC性能了
2. 不断调整吸引子的形成效果更好，如联合优化网络参数
3. 运用课程培训策略（curriculum traini

最低0.47元/天解锁文章

dakenan1

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
深度吸引子网络 Deep attractor Net单通道语音分离文献汇总

论文一：(DANet)基于单麦克风语音分离的深度吸引子网络核心工作：提出了在高维空间中嵌入吸引子（Attractor）将时频信息整合来训练的网络，模型实现了端到端的训练，分离不需要知道混合源的数量。分离的难点：1. 排序问题：混合语音会出现多个标签，无法分清属于哪个；2. 输出维度不匹配（标签不明确）：不清楚具体有几个声源深度聚类（DPCL）特点：能解决以上两点问题，但目标函数是各声源...
复制链接

扫一扫

专栏目录