p0001--汪德亮2018--Supervised Speech Separation Based on DeepLearning: An Overview

今天开始看汪德亮的Supervised Speech Separation Based on DeepLearning: An Overview做一个翻译为主的个人笔记    

        abstract:语音分离是指将目标语音从背景干扰中分离出来,传统的方式是从信号处理的角度解决的。最近,多种监督学习的算法用于语音分离,尤其是基于深度学习的监督算法,大大提升了分离的性能。本文主要介绍近几十年用于语音分离的深度学习监督算法。监督学习三个主要的成分:机器学习、训练目标和声学特性。本文回顾的大部分算法是基于单声道的,包括语音增强(speech-nonspeech separation),谈话者分离(multitalker separation),语音反混响以及麦克风技术。讨论了监督学习特有的泛化问题,此外还有一些概念问题,包括目标源的生成。

 instroduction

        语音分离是一个基本的信号处理问题,有着广泛的应用。包括助听器、移动通信以及鲁棒性的语音识别。人类有优秀的听觉能力,比如在鸡尾酒会,人可以在很多背景噪声存在下跟随一个演讲者。语音分离被称为“鸡尾酒问题”,是Cherry在他1953年的文章中提出的术语。

 

        语音分离是声源分离的一类。感知上,源分离是听觉流分离( auditory stream segregation),是听觉上广泛研究的课题。Miller和Heise [ 124]第一次系统性的研究了流分离,指出听者用交变的正弦波将一个信号分成两股,Bregman 和他的同事在这个课题上做了很多实验,并且在他的著作中引入 auditory scene analysis (ASA)一词,是指隔离混音并将来自同一声源的语音分组的感知过程。ASA分为同时组织(集成并发声音)和顺序组织(集成按时顺序声音)。本文说的语音分离主要是指将目标语音从混合语音中分离。

        Miller总结了在各种声调、宽带噪声以及其他声音的干扰下人对单词的理解力,虚线表示50%的理解力。各种声调干扰不大,宽带噪声干扰最大。(speech reception threshold   SRT 语音接受阈)而且,听力不好的人的SRT更大,说明他们对语音分离的能力不强。

 

 

        Cherry在他的1956年的书中提到:“No machine has yet been constructed to do just that [solving the cocktail part problem]. ”没有机器可以像人耳一样进行语音分离,这句话到目前为止依然没有被打破。

 

        按照麦克风数目,语音分离可以被分类为单麦克风和多麦克风。单麦克风的传统算法是语音增强和CASA(computational auditory scene analysis )。语音增强是噪声和语音的一般估计,用估计的噪声从带噪语音中分离出干净语音;最常用的是谱减法(spectral subtraction ),假设噪声是稳态噪声。CASA是听觉场景分析的知觉原理,利用分组线索,如音高和开始。例如,串联算法通过交替音高估计和基于音高的分组来分离语音。

        两个或多个的麦克风阵列使用不同的原理实现语音分离,波束形成,空间滤波,加强特定方向的语音,削弱其他方向的信号。最简单的波束形成器是延时-求和波束形成,噪声的衰减取决于空间、尺寸、阵列的配置,整体来说,衰减程度随着麦克风数目和阵列长度的增加而增强。很明显,当声源和噪声很近时,空间滤波不可用;而且,波束形成的效用在混响情况下也大大衰减,因为声源的方向性不明显了。

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值