噪声估计之MCRA

最新推荐文章于 2025-03-10 09:15:16 发布

373955482

最新推荐文章于 2025-03-10 09:15:16 发布

阅读量7.9k

点赞数 4

分类专栏：语音增强音频处理文章标签： MCRA 最小值跟踪噪声估计语音存在概率降噪

本文链接：https://blog.csdn.net/u010592995/article/details/101210460

版权

音频处理同时被 2 个专栏收录

19 篇文章

订阅专栏

语音增强

4 篇文章

订阅专栏

MCRA

$M C R A$ ¹，全称为最小值控制的递归平均，是cohen提出的一种常用的噪声估计方法，处理流程框图 ² 如下
在这里插入图片描述
从命名上以及以上框图能看出来着个方法主要包含两个部分，噪声谱递归平均和最小值控制(跟踪)，下面分别看看这两个部分

1. 噪声谱估计（递归平均）

还是老套路先定义信号表达式
$\ell)=\sum_{n=0}^{N-1} y(n+\ell M) h(n) e^{-j \frac{2 \pi}{N} n k}\tag1$

$k$ :frequency bin index

$\ell$ :time frame index

$h$ :analysis window of size N

$M$ :frame update step in time

定义两个假设，在第 $\ell$ 帧第 $k$ 个频率点上语音不存在和语音存在 $H_0(k,\ell),H_1(k,\ell)$ 概率如下：
$\begin{aligned} &H_0(k,\ell):Y(k,\ell)=D(k,\ell)\\ &H_1(k,\ell):Y(k,\ell)=X(k,\ell)+D(k,\ell)\end{aligned}\tag2$
其中 $X(k,\ell)和D(k,\ell)$ 分别为纯净语音和噪声的 $S T F T$ 表示

定义 $\lambda_d(k,\ell)=E[\begin{vmatrix} D(k,\ell) \end{vmatrix}^2]$ 为 $k帧、\ell子带$ 处噪声谱，那么就可以在无语音段用一个时间维度上的递归平滑来更新噪声，用公式表示如下
$\begin{array}{l}{H_{0}^{\prime}(k, \ell) : \hat{\lambda}_{d}(k, \ell+1)=\alpha_{d} \hat{\lambda}_{d}(k, \ell)+\left(1-\alpha_{d}\right)|Y(k, \ell)|^{2}} \\ {H_{1}^{\prime}(k, \ell) : \hat{\lambda}_{d}(k, \ell+1)=\hat{\lambda}_{d}(k, \ell)}\end{array}\tag3$
其中 $\alpha_d(0<\alpha_d<1)$ 为平滑因子

用 $p^{\prime} \triangleq P(H^{\prime}_1|Y(k,\ell))$ 表示语音存在的条件概率，则(3)式可以写成如下形式
$\tilde\lambda_d(k,\ell+1)=\tilde{\alpha}_{d}(k, \ell) \hat{\lambda}_{d}(k, \ell)+\left[1-\tilde{\alpha}_{d}(k, \ell)\right]|Y(k, \ell)|^{2}\tag4$
其中 $\tilde\alpha_d(k,\ell)$ 为时变的平滑参数
$\tilde\alpha_d(k,\ell)\triangleq \alpha_d+(1-\alpha_d)p^{\prime}(k,\ell)\tag5$
上面的(4)、(5)两式就是递归平均更新噪声谱的核心内容，现在的问题就是要求出时变参数 $\tilde\alpha_d(k,\ell)$ ，也就是要求出语音存在概率这个关键变量 $p^{\prime}(k,\ell)$

2. 语音存在概率（最小值控制）

2.1. 最小值跟踪

语音存在概率由带噪语音当前的能量和指定长度窗内谱最小值的比值来计算，先对带噪语音谱分别做时间、频率两个维度上的平滑

频率平滑：
$S_{f}(k, \ell)=\sum_{i=-w}^{w} b(i)|Y(k-i, \ell)|^{2}\tag5$
时间平滑:
$\ell)=\alpha_s(k,\ell)S(k,\ell-1)+S_f(k,\ell)\tag6$
其中 $\alpha_s(0<\alpha_s<1)$ 为平滑常数

谱最小值 $S_{min}(k,\ell)$ 搜索过程如下：

初始化:

$S_{min}(k,\ell)=S(k,0)$

$S_{tmp}(k,\ell)=S(k,0)$

然后按样本点(频谱)比较
$S_{min}(k,\ell)=min\begin{Bmatrix}S_{min}(k,\ell-1),S(k,\ell)\end{Bmatrix}\\S_{tmp}(k,\ell)=min\begin{Bmatrix}S_{tmp}(k,\ell-1),S(k,\ell)\end{Bmatrix}\tag7$
这个时候 $S_{min}和S_{tmp}$ 都还是相等的，当比较了L帧（mod( $\ell$ ,L)=0）后
$\begin{aligned}&S_{min}(k,\ell)=min\begin{Bmatrix}S_{tmp}(k,\ell-1),S(k,\ell)\end{Bmatrix}\\&S_{tmp}(k,\ell)=S(k,\ell)\end{aligned}\tag8$
重复(7)、(8)过程得到最小值谱，其中，搜索窗的长度L会影响到噪声的跟踪速度，一般按照经验选0.5s~1.5s左右。

2.2. 语音存在概率计算

定义带噪语音能量与局部最小能量与比 $S_r(k,\ell)$ 如下
$S_r(k,\ell)\triangleq\frac{S(k,l)}{S_{min}(k,\ell)}\tag9$
定义二值 $I(k,\ell)$ 如下
$I(k,\ell)=\left\{\begin{matrix}\begin{aligned}&1,S_r(k,\ell)>\delta\\&0,otherwise\end{aligned}\end{matrix}\right.\tag{10}$
最后，语音存在概率更新如下：
$\hat{p^{\prime}}(k, \ell)=\alpha_{p} \hat{p^{\prime}}(k, \ell-1)+\left(1-\alpha_{p}\right) I(k, \ell)\tag{11}$
其中 $\delta为预先设定的门限，\alpha_p(0<\alpha_p<1)$ 为平滑常数

3.code & result

整个过程比较简单，参照上述过程编写程序估计噪音，结合谱减法降噪效果如下
在这里插入图片描述

对比处理前后可以看到背景噪声有了明显的消除，当然因为谱减法的原因引入了较多的音乐噪声，这个时候还可以尝试其它的谱修改方法如维纳滤波或者OMLSA等
References:

Cohen, I., & Berdugo, B. (2002). Noise estimation by minima controlled recursive averaging for robust speech enhancement. IEEE Signal Processing Letters, 9(1), 12–15 ↩︎
Cohen, I., & Berdugo, B. (2001). Speech enhancement for non-stationary noise environments. Signal Processing, 81(11), 2403–2418 ↩︎