WangDeLiangReview2018 - (3)学习目标

最新推荐文章于 2023-08-02 22:33:46 发布

民工渣渣辉

最新推荐文章于 2023-08-02 22:33:46 发布

阅读量1.7k

点赞数 7

分类专栏：语音Speech 文章标签：语音识别机器学习深度学习

本文链接：https://blog.csdn.net/FonFon27/article/details/113787065

版权

本文聚焦于有监督语音分离中训练目标的重要性，介绍了基于掩膜和映射的两种目标类型，并详细讨论了如IBM、TBM、IRM、SMM、PSM等具体目标。通过评估指标如SDR、SIR、SAR、STOI和PESQ，揭示了不同目标对语音可理解度和质量的影响。研究表明，比例掩膜通常优于二值掩膜，而IRM和SMM是最优选目标。

摘要由CSDN通过智能技术生成

【WangDeLiangOverview2018】

Supervised Speech Separation Based on Deep Learning: An Overview

DeLiang Wang / Jitong Chen @ Ohio

IEEE/ACM Trans. ASLP2018

【目录】

1. 引入

2. 学习机器(learning machines)

3. 训练目标(training target)

4. 特征

5. 单声道分离

6. 多声道分离(阵列分离)

7. 更多内容

【正文】

3. 训练目标(training target)

在有监督的语音分离中，定义合适的训练目标(training target)对学习和泛化具有重要意义。主要有2组训练目标，即基于掩膜(masking-based)的目标和基于映射(mapping-based)的目标。基于掩膜的目标，描述干净语音与背景干扰的时频关系，而基于映射的目标，对应干净语音的谱表示(spectral representation)。在本节中，我们调查了该领域提出的一些培训目标。

在回顾训练目标之前，让我们先描述一下语音分离中常用的评价指标(evaluation metrics)。根据个别研究的目标，文献中提出了各种度量标准。这些指标可以分为两类:信号级别和感知级别。在信号级(signal level)，度量旨在量化信号增强或干扰减少的程度。除了传统的信噪比SNR外，分离信号中的语音失真(loss)和噪声残留也可以单独测量[77][113]。一组突出的评估指标包括源失真比SDR(Source-to-Distortion Ratio)、源干扰比SIR(Source-to-Inference Ratio)和源伪影比SAR(Source-to-Artifact Ratio)[165]。

感知级。由于语音分离系统的输出信号往往被听话者消费，因此人们花费了大量的精力来定量地预测听话者对分离信号的感知。可理解度(intelligibility)和语音质量(quality)是语音感知(perception level)的两个主要但又不同的方面，因此已经开发了客观指标来