降噪算法概述

雨雾霏

已于 2024-01-17 15:17:20 修改

阅读量1w

点赞数 4

分类专栏：语音增强文章标签：算法语音识别人工智能

于 2019-03-21 11:01:22 首次发布

本文链接：https://blog.csdn.net/u011639933/article/details/88709480

版权

语音增强专栏收录该内容

2 篇文章 0 订阅

订阅专栏

语音增强技术概述

在通信过程中语音受到来自周围环境、传输媒介引入的噪声，使接收到的语音信号并非纯净的原始语音信号，而是受噪声污染的带噪语音信号。这里的“噪音”定义为所需语音信号以外的所有干扰信号。

干扰信号可以是窄带的或宽带的、白噪声的或有色噪声的、声学的或电学的、加性的或乘性的，甚至可以是其它无关的语音。由噪声导致的语音质量的下降会使许多语音处理系统的性能急剧恶化。采用语音增强技术进行预处理，可有效地改善系统性能。

语音增强的目的

对收听人而言主要是改善语音质量，提高语音可懂度，减少疲劳感；对语音处理系统（识别器、声码器、手机）而言是提高系统的识别率和抗干扰能力。

语音信号的相关特性

增强与语音信号处理理论有关，而且涉及到人的听觉感知和语音学。噪声来源众多，随应用场合不同而特性各异，因此难以找到一种通用的语音增强算法可以适用于各种噪声环境，必须针对不同环境下的噪声采取不同的语音增强策略。因此，要进行语音增强首先要了解语音特性、人耳感知特性和噪声特性。

1. 语音特性
  1. 语音信号具有短时平稳性

声道形状有相对稳定性，在一段时间内（10ms～30ms），人的声带和声道形状是相对稳定的，可认为其特征是不变的，因而语音的短时谱具有相对稳定性，在语音分析中可以把语音信号分为若干分析帧，每一帧的语音可以认为是准稳定的。语音增强可以利用这种短时平稳性。

1. 1. 语音信号可以分为浊音和清音

语音可以分为周期性的浊音和非周期性的清音。在语音增强中，可以利用浊音的周期性特征，采用梳状滤波器提取语音分量或者抑制非语音信号，而清音则难以与宽带噪声区分。

1. 1. 语音信号可以利用统计分析特征描述

作为一个随机过程，语音信号可以利用许多统计分析特征进行分析。语音的短时谱幅度统计特征是时变的，只有当分析帧长趋于无穷大时，才能近似具有高斯分布。在高斯模型的假设中，可以认为傅里叶展开系数是独立的高斯随机变量，均值为零，而方差是时变的。在有限帧长时这种高斯模型只是一种近似的描述，可以作为分析的前提在宽带噪声污染的带噪语音增强中应用。

1. 人耳感知特性

人耳对语音的感知主要是通过语音信号频谱分量幅度获取的，对各分量相位则不敏感，对频率高低的感受近似与该频率的对数值成正比。人耳具有掩蔽效应，人耳除了可以感受声音的强度、音调、音色和空间方位外，还可以在两人以上的讲话环境中分辨出所需要的声音，这种分辨能力是人体内部语音理解机制具有的一种感知能力。人类的这种分离语音的能力与人的双耳输入效应有关，称为“鸡尾酒会效应”。语音增强的最终效果度量是人耳的主观感觉，所以在语音增强中可以利用人耳感知特性来减少运算代价。