WangDeLiangReview2018 - (3)学习目标

本文聚焦于有监督语音分离中训练目标的重要性,介绍了基于掩膜和映射的两种目标类型,并详细讨论了如IBM、TBM、IRM、SMM、PSM等具体目标。通过评估指标如SDR、SIR、SAR、STOI和PESQ,揭示了不同目标对语音可理解度和质量的影响。研究表明,比例掩膜通常优于二值掩膜,而IRM和SMM是最优选目标。
摘要由CSDN通过智能技术生成

【WangDeLiangOverview2018】

Supervised Speech Separation Based on Deep Learning: An Overview

DeLiang Wang / Jitong Chen @ Ohio

IEEE/ACM Trans. ASLP2018

 

【目录】

1. 引入

2. 学习机器(learning machines)

3. 训练目标(training target)

4. 特征

5. 单声道分离

6. 多声道分离(阵列分离)

7. 更多内容

 

【正文】

3. 训练目标(training target)

在有监督的语音分离中,定义合适的训练目标(training target)对学习和泛化具有重要意义。主要有2组训练目标,即基于掩膜(masking-based)的目标和基于映射(mapping-based)的目标。基于掩膜的目标,描述干净语音与背景干扰的时频关系,而基于映射的目标,对应干净语音的谱表示(spectral representation)。在本节中,我们调查了该领域提出的一些培训目标。

在回顾训练目标之前,让我们先描述一下语音分离中常用的评价指标(evaluation metrics)。根据个别研究的目标,文献中提出了各种度量标准。这些指标可以分为两类:信号级别和感知级别。在信号级(signal level),度量旨在量化信号增强或干扰减少的程度。除了传统的信噪比SNR外,分离信号中的语音失真(loss)和噪声残留也可以单独测量[77][113]。一组突出的评估指标包括源失真比SDR(Source-to-Distortion Ratio)源干扰比SIR(Source-to-Inference Ratio)源伪影比SAR(Source-to-Artifact Ratio)[165]。

感知级。由于语音分离系统的输出信号往往被听话者消费,因此人们花费了大量的精力来定量地预测听话者对分离信号的感知。可理解度(intelligibility)语音质量(quality)是语音感知(perception level)的两个主要但又不同的方面,因此已经开发了客观指标来

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值