WangDeLiangReview2018 - (5.4)说话人分离

最新推荐文章于 2024-04-28 19:29:17 发布

民工渣渣辉

最新推荐文章于 2024-04-28 19:29:17 发布

阅读量1.2k

点赞数 1

分类专栏：语音Speech 文章标签：语音识别深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/FonFon27/article/details/113448359

版权

本文概述了深度学习在说话人分离领域的应用，包括DNN、DeepClustering和DeepAttractorNet等方法。通过训练，DNN可以用于估计masking layer，实现说话人分离。文中提到的Permutation Invariant Training (PIT)解决了说话人独立模型的训练问题，为连续语音片段的正确组织提供了可能。研究表明，这些深度学习方法在提升语音分离质量和理解度方面表现出色。

摘要由CSDN通过智能技术生成

【WangDeLiangOverview2018】

Supervised Speech Separation Based on Deep Learning: An Overview

DeLiang Wang / Jitong Chen @ Ohio

IEEE/ACM Trans. ASLP2018

【目录】

1. 引入

2. 学习机器(learning machines)

3. 训练目标(training target)

4. 特征

5. 单声道分离

5.1 语音增强(speech separation)

5.2 语音增强的泛化

5.3 语音去混响 & 去噪(speech dereverberation & denoising)

5.4 说话人分离(speaker separation)

6. 多声道分离(阵列分离)

7. 更多内容

【正文】

说话人分离(speaker separation)的目标是，从一个包含2个or多个voice的mixture里提取多个语音信号，每个说话人(speaker)对应一个。在深度学习被证明能胜任语音增强之后，在类似的框架下，DNN已被成功应用在说话人分离中，如图12是2说话人分离，或者叫共信道分离(cochannel separation)。

Huang[81]是最早为此引入DNN的。他们的研究使用forward DNN和一个RNN来解决2说话人分离。作者说，在帧t时候，2个estimated sources的spectra，

最低0.47元/天解锁文章

民工渣渣辉

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
WangDeLiangReview2018 - (5.4)说话人分离

WangDeLiangOverview20181. 引入2. learning matchines3. training target4. 特征5. 单声道分离6. 多声道分离(阵列分离)7. 更多内容5. 单通道分离(monaural separation)5.1 语音增强(speech separation)5.2 语音增强的泛化5.3 语音去混响 & 去噪(speech dereverberation & denoising)5.4.
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。