WangDeLiangReview2018 - (4)特征

最新推荐文章于 2024-10-28 11:00:15 发布

民工渣渣辉

最新推荐文章于 2024-10-28 11:00:15 发布

阅读量935

点赞数 2

分类专栏：语音Speech 文章标签：语音识别机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/FonFon27/article/details/114188453

版权

本文探讨了在低信噪比下，多种声学特征在监督语音分离中的作用，包括MFCC、Gammatone特征、自相关特征等。研究发现，MRCG（Multi-Resolution Cochleagram）在准确率和HIT-FA率上表现出色。特征后处理和固定MLP的IBM掩模估计子用于评估。不同场景下，最佳性能特征有所变化，强调了特征选择对有监督语音分离任务的关键性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【WangDeLiangOverview2018】

Supervised Speech Separation Based on Deep Learning: An Overview

DeLiang Wang / Jitong Chen @ Ohio

IEEE/ACM Trans. ASLP2018

【目录】

1. 引入

2. 学习机器(learning machines)

3. 训练目标(training target)

4. 特征

5. 单声道分离

5.1 语音增强(speech separation)

5.2 语音增强的泛化

5.3 语音去混响 & 去噪(speech dereverberation & denoising)

5.4 说话人分离(speaker separation)

6. 多声道分离(阵列分离)

7. 更多内容

【正文】

作为输入的特征，和学习机器(learning machine)一起在监督学习中起着互补的作用。当特征是有区别(discriminative)的时候，为了成功地完成任务，它们对学习机的要求更少。另一方面，强大的学习机对特征的要求较低。一个极端是，一个线性分类器，像Rosenblatt的感知机(perceptron)，便是一切所需，如果特征使得任务是线性可分的。在另一个极端，如果分类器能够学习到适当的特征，那么没有任何特征提取的原始形式的输入(例如音频中的波形)就足够了。在这两者之间的大部分任务中，特征提取和学习都很重要。

早期监督分离的研究只使用了少数几个特征，如双通道分离(binaural separation)中使用的双耳时间差ITD(Interaural Time Differences)和双耳水平/强度差IID(Interaural Intensity differences)[141]，单通道分离(monoaural separation)中使用的基于音调(pitch-based)的特征[91][78][55]和幅度调制谱图AMS(Amplitude Mo

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。