语音增强基本概念

最新推荐文章于 2024-09-13 15:25:25 发布

qq_42391439

最新推荐文章于 2024-09-13 15:25:25 发布

阅读量1.9k

点赞数

分类专栏：语音处理文章标签：语音识别

原文链接：https://www.jianshu.com/p/2b83e68a055b/

版权

语音处理专栏收录该内容

2 篇文章 1 订阅

订阅专栏

转载于 https://www.jianshu.com/p/2b83e68a055b/

语音增强是指当语音信号被不同噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制噪声干扰的技术。语音增强在语音识别、语音编码等领域有着重要的应用，是语音交互系统中最前端的预处理模块。
噪音类型：1. 混响 2. 背景噪声 3. 人声干扰 4. 回声

单通道语音增强

谱减法(原理简单，算法计算复杂度低)
将含噪语音信号和VAD判别(Voice Activity Detection （语音激活检测）)得到的纯噪声信号进行DFT变化，从含噪语音谱幅度特征中减掉纯噪声的幅度谱特征，得到增强的幅度谱特征，再借用含噪语音的相位进行IDFT变化，得到增强的语音。谱减法假设
语音和噪声信号是线性叠加的噪声是平稳的(指的是频谱固定)，噪声与语音信号不相关(指的是噪音在语音频率上能量小)。
谱减法相当于对带噪语音的每一个频谱分量乘以一个系数。信噪比高时，含有语音的可能性大，衰减系数小；反之衰减系数大。
维纳滤波
在最小均方准则下用维纳滤波器实现对语音信号的估计，即对带噪语音信号y(t)=s(t)+n(t),确定滤波器的冲击响应h(t),使得带噪语音信号经过该滤波器的输出能够与s(t)的均方误差最小。
计算复杂度低，满足实时性要求
算法要求输入信号具有平稳特性
算法要求带噪语音和安静语音存在线性关系
在处理非平稳噪声时，降噪效果会变差在复杂环境下难以跟踪非平稳噪声变化轨迹
矩阵分解
增强的谱参数通过语音参数基矢量加权得到，可以抑制过平滑问题
建立的基矩阵可以通过扩帧来考虑相邻帧的特征，从而捕获噪声变化轨迹
相对于其它数据驱动方法，不需要大数据进行训练
算法计算复杂度高，实时性难以满足要求
基于分析-合成框架语音增强
语音增强问题进行分解
准确提取语音参数
增强处理语音参数
声码器合成语音