本文主要的参考文献来自于语音及语言信息处理国家工程实验室的一篇演讲报告
1、语音增强的目标:
受体是机器,目标是提高语音的可懂度(intelligibility)
受体是人,目标是提高语音的质量(quality)
2、语音增强的任务:
语音降噪、语音分离、语音解混响,增强技术很多情况下并不是独立的,而是需要联合处理和优化。例如,语音解混
响与降噪,卷积盲源分离与降噪等等
3、研究现状和趋势:
语音增强主要包括三个方面:语音降噪、语音分离和语音解混响(可以包含回声消除)问题。根据接收信号的通道个数不同又分为单通道和多通道(特别强调二麦情况,因为与人类双耳对应)等不同情况。基本的算法都是从混合信号和干净信号建立的接收信号模型出发,考虑空间(spatial)、时间(temporal)和谱特性(spectra)三个维度的信息和信号处理问题;当然空间信息需要对应多麦克风情况,单麦克风没有spatial信息可以利用。
1)语音降噪研究现状
无监督语音降噪算法:
谱减法
将估计的噪声的功率谱并将其从嘈杂语音中减去;
没有利用明确的语音模型,其性能在很大程度上叏决亍对干扰源的频谱跟踪的好坏,容易产生“无中生有”的音乐 噪声;
基于统计模型的方法
语音增强问题归入到一个统计的估计框架中,如Wiener滤波、最小均方误差(MMSE)方<