OMLSA算法推导

最新推荐文章于 2023-03-09 14:02:23 发布

myuzhao

最新推荐文章于 2023-03-09 14:02:23 发布

阅读量895

点赞数

分类专栏：语音增强音频信号处理文章标签：算法概率论语音识别

本文链接：https://blog.csdn.net/suijue9389/article/details/120624636

版权

音频信号处理同时被 2 个专栏收录

22 篇文章 16 订阅

订阅专栏

语音增强

11 篇文章 1 订阅

订阅专栏

OMLSA算法推导

OM-LSA(Optimally-modified log-spectral amplitude)是经典的降噪算法，这里做一个学习总结，把中间的一些公式推导一下，写一些自己的想法，水平有限，欢迎指正。

LSA估计增益

OM-LSA(Optimally-modified log-spectral amplitude)从名字上就可以看出来估计的是对数幅度谱，LSA做为最小优化目标，即，
$e=E\{(log(\hat{A}(k,l))- log(A(k,l)))^2\} \tag{1}$

这里使用的其实是贝叶斯MSE准则，通过对 $log(\hat{A}(k,l))$ 求导得到，
$log(\hat{A}(k,l))=E(log(A(k,l)|Y(k,l))) \\ \hat{A}(k,l) = exp(E(log A(k,l)|Y(k,l))) \tag{2}$

每一帧可以分为存在语音和不存在语音两种情况，即，
$\begin{aligned} H_0(k,l):Y(k,l) &= D(k,l) \\ H_1(k,l):Y(k,l)&=X(k,l) + D(k,l) \end{aligned} \tag{3}$

式(2)中需要求解E(log A(k,l)|Y(k,l)),在存在语音和不存在语音两种假设情况下可以写成，
$\begin{aligned} E(log A(k,l)|Y(k,l)) &= E(log A(k,l)|Y(k,l),H_1(k,l))p(k,l) \\&+ E(log A(k,l)|Y(k,l),H_0(k,l))(1-p(k,l)) \end{aligned} \tag{4}$

将式(4)带人(2),并且利用 $e^{xy}=(e^x)^y,e^{x+y}=e^xe^y$ 的性质，可以得到，
$\begin{aligned} \hat{A}(k,l)&= exp(E(log A(k,l)|Y(k,l),H_1(k,l)))^{p(k,l)} \\&+ exp(E(log A(k,l)|Y(k,l),H_0(k,l)))^{(1-p(k,l))} \end{aligned} \tag{5}$

当语音不存在时，使用一个最小值超参进行约束，即，
$A(k,l)|Y(k,l),H_0(k,l)))=G_{min}|Y(k,l)| \tag{6}$

当语音存在时，可以推导出，
$A(k,l)|Y(k,l),H_1(k,l)))=G_{H_1}|Y(k,l)| \\ G_{H_1}=\frac{\zeta(k,l)}{1+\zeta(k,l)}\int_{v(k,l)}^\infty \frac{1}{2}\frac{e^{-t}}{t}dt \tag{7}$

其中 $p (k, l)$ 为条件语音存在概率， $\zeta(k,l)$ 为先验信噪比， $\gamma(k,l)$ 为后验信噪比， $v(k,l)=\frac{\gamma(k,l)\zeta(k,l)}{1+\zeta(k,l)}$ 是先验后验信噪比的函数。将式(7),(6)带入式(5)得，
$\begin{aligned} \hat{A}(k,l)&= \{G_{H_1}(k,l)\}^{p(k,l)}G_{min}^{1-p(k,l)} |Y(k,l)| \\ &= G(k,l) |Y(k,l)| \end{aligned} \tag{8}$

要想得到 $G (k, l))$ ,需要估计出条件语音存在概率和先后验信噪比（间接需要估计出底噪）。

贝叶斯定理估计条件语音存在概率

假设干净语音和噪声的短时傅里叶变换系数满足复高斯分布，且不相干，则可以得到概率密度函数为，
$\begin{aligned} p(Y(k,l)| H_0(k,l)) &= \frac{1}{\pi\lambda_x(k,l)}exp(-\frac{|Y(k,l)|^2}{\lambda_d(k)})， \\ p(Y(k,l)| H_1(k,l)) &= \frac{1}{\pi(\lambda_x(k,l)+\lambda_d(k,l))}exp(-\frac{|Y(k,l)|^2}{\lambda_x(k)+\lambda_d(k)}) \end{aligned} \tag{9}$

利用贝叶斯定理，
$\begin{aligned} p(H_1(k,l)|Y(k,l))&=\frac{p(Y(k,l)|H_1(k,l))p(H_1)}{p(Y(k,l))} \\ &=\frac{p(Y(k,l)|H_1(k,l))p(H_1)}{p(Y(k,l)|H_1(k,l))p(H_1) + p(Y(k,l)|H_0(k,l))p(H_0)} \end{aligned} \tag{10}$

将式(9)带入式(10),得到，
$p(k,l)=\{1+\frac{q(k,l)}{1-q(k,l)}(1+\zeta(k,l))exp(-v(k,l)) \}^{-1} \tag{11}$

其中 $q (k, l)$ 为先验语音缺失概率， $\zeta(k,l)=\frac{\lambda_x(k,l)}{\lambda_d(k,l)}$ 为先验信噪比， $\gamma(k,l)=\frac{|Y(k,l)|^2}{\lambda_d(k,l)}$ 为后验信噪比， $v(k,l)=\frac{\gamma(k,l)\zeta(k,l)}{1+\zeta(k,l)}$ 是先验后验信噪比的函数(和上面的定义一样)。

根据式(11),要想得到条件语音存在概率，需要估计出先后验信噪比（需要估计底噪）和先验语音缺失概率。

DD准则估计先验信噪比

在假设噪声估计出来的情况下，后验信噪比的估计只需要利用当前帧的能量除以噪声能量就可以了，而先验信噪比的估计需要利用DD准则进行估计，即，
$\hat{\zeta}(k,l)=\alpha G_{H_1}^2(k,l-1)\gamma(k,l-1) + (1-\alpha)max\{\gamma(k,l)-1,0\} \tag{12}$

式(12)的第一部分是上一帧的先验信噪比估计,
$\begin{aligned} G_{H_1}^2(k,l-1)\gamma(k,l-1)&=\frac{\{G_{H_1}(k,l-1)|Y(k,l-1)|\}^2}{\lambda_d(k,l-1)}\\ &= \frac{\lambda_x(k,l-1)}{\lambda_d(k,l-1)} \\ &= \zeta(k,l-1) \end{aligned}$

式(12)的第二部分是当前帧的先验信噪比估计,
$\gamma(k,l)-1 = \frac{|Y(k,l)|^2}{\lambda_d(k,l)} - 1 = \frac{|Y(k,l)|^2-\lambda_d(k,l)}{\lambda_d(k,l)} = \frac{\lambda_x(k,l)}{\lambda_d(k,l)} = \zeta(k,l)$

将两部分做一个平滑得到最终的先验信噪比估计。

通过先验信噪比的软决策估计先验语音缺失概率

首先将估计出来的先验信噪比进行平滑，即，
$\zeta(k,l)=\beta \zeta(k,l-1) + (1-\beta)\hat{\zeta}(k,l-1) \tag{13}$

接着在频域进行综合，考虑频带间的影响，定义
$\zeta_\lambda(k,l)=\sum_{i=-w_\lambda}^{w_\lambda}h_\lambda(i)\zeta(k-i,l)$

其中 $h_\lambda$ 为hanning窗，下标 $\lambda$ 可以等于"local",也可以等于"global",当 $w_\lambda$ =1时，为"local"，代表局部信噪比的平均，当 $w_\lambda$ =15时，为"global"，代表全局信噪比的平均，根据 $\zeta_\lambda(k,l)$ 的数值和超参 $\zeta_{min}$ , $\zeta_{max}$ 定义，
$p_\lambda(k,l)=\begin{cases} & 0, \text{if} \zeta_\lambda(k,l) \leq \zeta_{min} \\ & 1, \zeta_\lambda(k,l) \geq \zeta_{max}\\ & \frac{log(\zeta_\lambda(k,l)/\zeta_{min})}{log(\zeta_{max}/\zeta_{min})}, otherwise \end{cases} \tag{14}$

为了进一步在噪声帧加强噪声抑制，定义，
$\zeta_{frame}(l)=\underset{1\leq k \leq M/2+1}{mean}\{\zeta(k,l)\}$

$u(l)=\begin{cases} &0，\text{if}, \zeta_{frame}(l) \leq \zeta_{peak}\zeta_{min} \\ & 1, \text{if}, \zeta_{frame}(l) \geq \zeta_{peak}\zeta_{max} \\ & \frac{log(\zeta_{frame}(l)/\zeta_{peak}(l)/\zeta_{min}(l))}{log(\zeta_{max}/\zeta_{min})}, otherwise \end{cases} \tag{15}$

$p_{frame}$ 的计算如下图所示，
在这里插入图片描述
先验语音缺失概率根据下式求得，
$\hat{q}(k,l)= 1 - p_{local}(k,l)p_{global}(k,l)p_{frame}(l) \tag{16}$

MCRA方法估计底噪

常见的噪声估计方法有递归平滑，最小值跟踪，直方图统计和分位数噪声估计等方法，这里的MCRA(Minima controlled recursive averaging)算法使用了递归平均和最小值跟踪相结合的方法，这里的最小值跟踪体现在语音存在概率是由最小值跟踪确定的。

递归平滑

在噪声段进行语音平滑处理，在语音段不更新噪声，则，
$\begin{aligned} H_0^{'}(k,l):\hat{\lambda_d}(k,l+1) &= \alpha_d\hat{\lambda_d}(k,l) + (1-\alpha_d)|Y(k,l)|^2 \\ H_1^{'}(k,l):\hat{\lambda_d}(k,l+1) &= \hat{\lambda_d}(k,l) \end{aligned} \tag{17}$

$\alpha_d$ 是平滑参数，数值过大会导致跟踪较慢，数值过小，容易产生音乐噪声。利用条件语音存在概率 $p^{'}(k,l)$ 进行综合，可得，
$\begin{aligned} \hat{\lambda_d}(k,l+1) &= (\alpha_d\hat{\lambda_d}(k,l) + (1-\alpha_d)|Y(k,l)|^2)(1-p^{'}(k,l)) + \hat{\lambda_d}(k,l)p^{'}(k,l) \\ & = \tilde\alpha_d\hat{\lambda_d}(k,l) + (1-\tilde\alpha_d)|Y(k,l)|^2 \end{aligned} \tag{18}$

其中， $\tilde{\alpha_d}=\alpha_d + (1-\alpha_d)p^{'}(k,l)$

最小值控制语音存在概率

首先对幅度谱在频域进行平滑，得，
$S_f(k,l)=\sum_{i=-w}^{w}b(i)|Y(k-i,l)|^2 \tag{19}$

接着在时域进行平滑，
$S(k,l)=\alpha_s S(k,l-1) + (1-\alpha_s )S_f(k,l) \tag{20}$

利用最小值跟踪法求出 $S_{min}(k,l)$ ,并且定义比值 $S_r(k,l)=S(k,l)/S_{min}(k,l)$ ,如果 $S_r(k,l)$ 大于阈值，则令 $I (k, l) = 1$ ,否则为0，条件语音存在概率根据I(k,l)平滑得到，即，
$p^{'}(k,l)=\alpha_pp^{'}(k,l-1) + (1-\alpha_)I(k,l) \tag{21}$