WangDeLiangReview2018 - (4)特征

本文探讨了在低信噪比下,多种声学特征在监督语音分离中的作用,包括MFCC、Gammatone特征、自相关特征等。研究发现,MRCG(Multi-Resolution Cochleagram)在准确率和HIT-FA率上表现出色。特征后处理和固定MLP的IBM掩模估计子用于评估。不同场景下,最佳性能特征有所变化,强调了特征选择对有监督语音分离任务的关键性。
摘要由CSDN通过智能技术生成

【WangDeLiangOverview2018】

Supervised Speech Separation Based on Deep Learning: An Overview

DeLiang Wang / Jitong Chen @ Ohio

IEEE/ACM Trans. ASLP2018

 

【目录】

1. 引入

2. 学习机器(learning machines)

3. 训练目标(training target)

4. 特征

5. 单声道分离

    5.1 语音增强(speech separation)

    5.2 语音增强的泛化

    5.3 语音去混响 & 去噪(speech dereverberation & denoising)

    5.4 说话人分离(speaker separation)

6. 多声道分离(阵列分离)

7. 更多内容
 

【正文】

作为输入的特征,和学习机器(learning machine)一起在监督学习中起着互补的作用。当特征是有区别(discriminative)的时候,为了成功地完成任务,它们对学习机的要求更少。另一方面,强大的学习机对特征的要求较低。一个极端是,一个线性分类器,像Rosenblatt的感知机(perceptron),便是一切所需,如果特征使得任务是线性可分的。在另一个极端,如果分类器能够学习到适当的特征,那么没有任何特征提取的原始形式的输入(例如音频中的波形)就足够了。在这两者之间的大部分任务中,特征提取和学习都很重要。

早期监督分离的研究只使用了少数几个特征,如双通道分离(binaural separation)中使用的双耳时间差ITD(Interaural Time Differences)和双耳水平/强度差IID(Interaural Intensity differences)[141],单通道分离(monoaural separation)中使用的基于音调(pitch-based)的特征[91][78][55]和幅度调制谱图AMS(Amplitude Mo

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值