WangDeLiangReview2018 - (5.4)说话人分离

本文概述了深度学习在说话人分离领域的应用,包括DNN、DeepClustering和DeepAttractorNet等方法。通过训练,DNN可以用于估计masking layer,实现说话人分离。文中提到的Permutation Invariant Training (PIT)解决了说话人独立模型的训练问题,为连续语音片段的正确组织提供了可能。研究表明,这些深度学习方法在提升语音分离质量和理解度方面表现出色。
摘要由CSDN通过智能技术生成

【WangDeLiangOverview2018】

Supervised Speech Separation Based on Deep Learning: An Overview

DeLiang Wang / Jitong Chen @ Ohio

IEEE/ACM Trans. ASLP2018

 

【目录】

1. 引入

2. 学习机器(learning machines)

3. 训练目标(training target)

4. 特征

5. 单声道分离

    5.1 语音增强(speech separation)

    5.2 语音增强的泛化

    5.3 语音去混响 & 去噪(speech dereverberation & denoising)

    5.4 说话人分离(speaker separation)

6. 多声道分离(阵列分离)

7. 更多内容

 

【正文】

说话人分离(speaker separation)的目标是,从一个包含2个or多个voice的mixture里提取多个语音信号,每个说话人(speaker)对应一个。在深度学习被证明能胜任语音增强之后,在类似的框架下,DNN已被成功应用在说话人分离中,如图12是2说话人分离,或者叫共信道分离(cochannel separation)

Huang[81]是最早为此引入DNN的。他们的研究使用forward DNN和一个RNN来解决2说话人分离。作者说,在帧t时候,2个estimated sources的spectra,

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值