语音降噪常用的估计器

最新推荐文章于 2024-07-09 16:28:40 发布

myuzhao

最新推荐文章于 2024-07-09 16:28:40 发布

阅读量303

点赞数

分类专栏：信号处理基础音频信号处理语音增强文章标签：信号处理

本文链接：https://blog.csdn.net/suijue9389/article/details/120583898

版权

音频信号处理同时被 3 个专栏收录

22 篇文章 16 订阅

订阅专栏

信号处理基础

16 篇文章 10 订阅

订阅专栏

语音增强

11 篇文章 1 订阅

订阅专栏

本文深入探讨了语音降噪中的估计方法，包括最大似然估计、假设分析、贝叶斯估计器如MMSE、传统MSE和贝叶斯MSE，以及Log-MMSE和MAP估计器。通过概率密度函数和贝叶斯定理，阐述了如何优化幅度谱估计，以实现更好的语音清晰度。

摘要由CSDN通过智能技术生成

语音降噪常用的估计器

最大似然估计

最大似然估计是根据观测到的数据 $y$ 估计数据概率密度函数中 $p(y;\theta)$ 的参数 $\theta$ ，最大似然估计假设参数是未知、确定的。

$\theta_{ML}=arg\ \underset{\theta}{max}\ p(y;\theta) \tag{1}$

最大似然估计的思想就是概率最大的事件最可能出现,不同的概率分布假设会有不同的效果。

假设一

如果假设干净语音的幅度 $X_k$ 和相位 $\theta_x(k)$ 是未知但确定的，噪声的傅里叶变换系数 $D(w_k)$ 满足复高斯分布，且的实部和虚部的方差均为 $\lambda_d(k)/2$ ，则，
$Y(w_k)$ 的概率密度函数为：
$p(Y(w_k);\theta_x(k),X_k) = \frac{1}{\pi\lambda_d(k)}exp(-\frac{|Y(w_k)-X_ke^{j\theta_x(k)}|^2}{\lambda_d(k)}) \tag{2}$
同时存在幅度和相位两个变量，如果需要对 $X_k$ 进行估计，则需要去除相位的冗余，可以假设相位是 $(0,2\pi)$ 在区间均匀分布的,通过对相位积分进行消除。
$p_L(Y(w_k);X_k) = \int_0^{2\pi}p(Y(w_k);X_k,\theta_x)p(\theta_x) d\theta_x\\ =\frac{1}{\pi\lambda_d(k)}exp(-\frac{Y_k^2+X_k^2}{\lambda_d(k)}\frac{1}{2\pi}\int_0^{2\pi}exp(\frac{2X_kRe(e^{-j\theta_x}Y(w_k))}{\lambda_d(k)})d\theta_x \tag{3}$
上式中的积分是一阶贝塞尔函数 $I_0$ 的变形,并且利用贝塞尔函数的近似表达式进行简化。
$I_0(|x|)\approx \frac{1}{\sqrt{2\pi|x|}}exp(|x|) \tag{4}$

$p_L(Y(w_k);X_k) =\frac{1}{\pi\lambda_d(k)}\frac{1}{\sqrt{2\pi \frac{2X_kY_k}{\lambda_d(k)}}} exp(-\frac{Y_k^2+X_k^2-2Y_kX_k}{\lambda_d(k)}) \tag{5}$

将对数似然方程 $log(p_L(Y(w_k);X_k))$ 进行求导，可以得到幅度的估计：
$\hat{X_k}=\frac{1}{2}(Y_k+\sqrt{Y_k^2-\lambda_d(k)})$

假设二

如果假设干净语音的幅度 $X_k$ 是未知但确定的，噪声的傅里叶变换系数 $D(w_k)$ 满足复高斯分布，且的实部和虚部的方差均为 $\lambda_d(k)/2$ ，干净语音和噪声的DFT系数不相关，则，
$\lambda_y(k)=\lambda_x(k)+\lambda_d(k)\\ \lambda_x(k)=X_k^2\\ \lambda_d(k)=D_k^2 \tag{6}$

$Y(w_k)$ 的概率密度函数为：
$p(Y(w_k);\lambda_x(k)) = \frac{1}{\pi(\lambda_x(k)+\lambda_d(k))}exp(-\frac{Y_k^2}{\lambda_x(k)+\lambda_d(k)}) \tag{7}$

最大化似然函数，可得 $\lambda_x(k)$ 的估计为：
$\hat\lambda_x(k)=Y_k^2-\lambda_d(k) \tag{8}$

将公式(2)带入公式(4)，得，
$\hat{X_k}=\sqrt{Y_k^2-D_k^2} \tag{9}$

这个结果和功率谱减法的结果一致。

贝叶斯估计器

贝叶斯估计器是指利用贝叶斯定理进行参数估计的一种方法。贝叶斯定理是指
$p(X_k|Y(w_k))=\frac{p(Y(w_k)|X_k)p(X_k)}{p(Y(w_k))} \tag{10}$

其中 $p(X_k)$ 是先验概率，贝叶斯理论的主要思想是利用能够事件的先验信息来提高预测的准确性。贝叶斯估计器一般和其他估计器结合使用形成通用贝叶斯估计器，例如语音降噪算法中会利用估计的语音存在概率作为先验信息来优化增益函数，而语音的存在概率由先验语音缺失概率 $P(H_0)$ 、先验信噪比、后验信噪比和概率密度函数通过贝叶斯理论推理得出。

MMSE估计器

MMSE(Minimum Mean Squared Error)估计器就是使得估计的参数和实际参数在最小均分误差准则下达到最优。例如之前写的维纳滤波就是最小均分误差准则下的最优复频谱估计器，但不是最优的幅度估计，语音降噪算法中更多的是估计最优的幅度，即，
$e=E\{(\hat{X_k)}- X_k)^2\} \tag{11}$

其中 $\hat{X_k}$ 是在频率 $w_k$ 下估计的幅度谱, $X_k$ 是在频率 $w_k$ 下的实际幅度谱。

传统MSE

$MSE(\hat{X_k}) = \int(X_k - \hat{X_k})^2p(Y;X_k)dX_k \tag{12}$

贝叶斯MSE

$BMSE(\hat{X_k}) = \int\int(X_k - \hat{X_k})^2p(Y,X_k)dYdX_k \tag{13}$

$\hat{X_k}=\int X_kp(X_k|Y)dX_k=E(X_k|Y)\tag{14}$

利用贝叶斯定理，
$p(X_k|Y(w_k))=\frac{p(Y(w_k)|X_k)p(X_k)}{p(Y(w_k))}=\frac{p(Y(w_k)|X_k)p(X_k)}{\int_0^\infty p(Y(w_k)|X_k)p(x_k)dx_k} \tag{15}$

其中 $p(X_k)是先验信息，利用合适的先验信息可以提供估计的准确性。$

Log-MMSE估计器

线性幅度谱的误差估计在数学上容易处理，但不符合听觉上的人耳响应曲线，有人建议使用对数幅度谱误差平方更合适，即,
$e=E\{log\hat{X_k}- logX_k)^2\}\tag{16}$

求 $logX_k$ 条件均值，可得，
$log\hat{X_k}=E\{log X_k|Y(w_k)\}\\ \hat{X_k} = exp(E\{log X_k|Y(w_k)\}) \tag{17}$

MAP估计器

MAP(MAXIMUM A POSTERIORI)估计器就是使得 $p(X_k|Y(w_k))$ 最大的估计，即最大化公式(10)。

参考

Loizou P C. Speech enhancement: theory and practice[M]. CRC press, 2007.
StevenM.Kay. 统计信号处理基础:estimation theory, detection theory:估计与检测理论[M]. 电子工业出版社, 2006.

myuzhao

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
语音降噪常用的估计器

语音降噪常用的估计器最大似然估计最大似然估计是根据观测到的数据yyy估计数据概率密度函数中p(y;θ)p(y;\theta)p(y;θ)的参数θ\thetaθ，最大似然估计假设参数是未知、确定的。θML=arg maxθ p(y;θ)(1)\theta_{ML}=arg\ \underset{\theta}{max}\ p(y;\theta) \tag{1}θML=arg θmax p(y;θ)(1)不同的概率分布假设会有不同的效果。假设一假设二如果
复制链接

扫一扫

专栏目录