语音降噪常用的估计器

最大似然估计

最大似然估计是根据观测到的数据 y y y估计数据概率密度函数中 p ( y ; θ ) p(y;\theta) p(y;θ)的参数 θ \theta θ,最大似然估计假设参数是未知、确定的。

θ M L = a r g   m a x θ   p ( y ; θ ) (1) \theta_{ML}=arg\ \underset{\theta}{max}\ p(y;\theta) \tag{1} θML=arg θmax p(y;θ)(1)

最大似然估计的思想就是概率最大的事件最可能出现,不同的概率分布假设会有不同的效果。

假设一

如果假设干净语音的幅度 X k X_k Xk和相位 θ x ( k ) \theta_x(k) θx(k)是未知但确定的,噪声的傅里叶变换系数 D ( w k ) D(w_k) D(wk)满足复高斯分布,且的实部和虚部的方差均为 λ d ( k ) / 2 \lambda_d(k)/2 λd(k)/2,则,
Y ( w k ) Y(w_k) Y(wk)的概率密度函数为:
p ( Y ( w k ) ; θ x ( k ) , X k ) = 1 π λ d ( k ) e x p ( − ∣ Y ( w k ) − X k e j θ x ( k ) ∣ 2 λ d ( k ) ) (2) p(Y(w_k);\theta_x(k),X_k) = \frac{1}{\pi\lambda_d(k)}exp(-\frac{|Y(w_k)-X_ke^{j\theta_x(k)}|^2}{\lambda_d(k)}) \tag{2} p(Y(wk);θx(k),Xk)=πλd(k)1exp(λd(k)Y(wk)Xkejθx(k)2)(2)
同时存在幅度和相位两个变量,如果需要对 X k X_k Xk进行估计,则需要去除相位的冗余,可以假设相位是 ( 0 , 2 π ) (0,2\pi) (0,2π)在区间均匀分布的,通过对相位积分进行消除。
p L ( Y ( w k ) ; X k ) = ∫ 0 2 π p ( Y ( w k ) ; X k , θ x ) p ( θ x ) d θ x = 1 π λ d ( k ) e x p ( − Y k 2 + X k 2 λ d ( k ) 1 2 π ∫ 0 2 π e x p ( 2 X k R e ( e − j θ x Y ( w k ) ) λ d ( k ) ) d θ x (3) p_L(Y(w_k);X_k) = \int_0^{2\pi}p(Y(w_k);X_k,\theta_x)p(\theta_x) d\theta_x\\ =\frac{1}{\pi\lambda_d(k)}exp(-\frac{Y_k^2+X_k^2}{\lambda_d(k)}\frac{1}{2\pi}\int_0^{2\pi}exp(\frac{2X_kRe(e^{-j\theta_x}Y(w_k))}{\lambda_d(k)})d\theta_x \tag{3} pL(Y(wk);Xk)=02πp(Y(wk);Xk,θx)p(θx)dθx=πλd(k)1exp(λd(k)Yk2+Xk22π102πexp(λd(k)2XkRe(ejθxY(wk)))dθx(3)
上式中的积分是一阶贝塞尔函数 I 0 I_0 I0的变形,并且利用贝塞尔函数的近似表达式进行简化。
I 0 ( ∣ x ∣ ) ≈ 1 2 π ∣ x ∣ e x p ( ∣ x ∣ ) (4) I_0(|x|)\approx \frac{1}{\sqrt{2\pi|x|}}exp(|x|) \tag{4} I0(x)2πx 1exp(x)(4)

p L ( Y ( w k ) ; X k ) = 1 π λ d ( k ) 1 2 π 2 X k Y k λ d ( k ) e x p ( − Y k 2 + X k 2 − 2 Y k X k λ d ( k ) ) (5) p_L(Y(w_k);X_k) =\frac{1}{\pi\lambda_d(k)}\frac{1}{\sqrt{2\pi \frac{2X_kY_k}{\lambda_d(k)}}} exp(-\frac{Y_k^2+X_k^2-2Y_kX_k}{\lambda_d(k)}) \tag{5} pL(Y(wk);Xk)=πλd(k)12πλd(k)2XkYk 1exp(λd(k)Yk2+Xk22YkXk)(5)

将对数似然方程 l o g ( p L ( Y ( w k ) ; X k ) ) log(p_L(Y(w_k);X_k)) log(pL(Y(wk);Xk))进行求导,可以得到幅度的估计:
X k ^ = 1 2 ( Y k + Y k 2 − λ d ( k ) ) \hat{X_k}=\frac{1}{2}(Y_k+\sqrt{Y_k^2-\lambda_d(k)}) Xk^=21(Yk+Yk2λd(k) )

假设二

如果假设干净语音的幅度 X k X_k Xk是未知但确定的,噪声的傅里叶变换系数 D ( w k ) D(w_k) D(wk)满足复高斯分布,且的实部和虚部的方差均为 λ d ( k ) / 2 \lambda_d(k)/2 λd(k)/2,干净语音和噪声的DFT系数不相关,则,
λ y ( k ) = λ x ( k ) + λ d ( k ) λ x ( k ) = X k 2 λ d ( k ) = D k 2 (6) \lambda_y(k)=\lambda_x(k)+\lambda_d(k)\\ \lambda_x(k)=X_k^2\\ \lambda_d(k)=D_k^2 \tag{6} λy(k)=λx(k)+λd(k)λx(k)=Xk2λd(k)=Dk2(6)

Y ( w k ) Y(w_k) Y(wk)的概率密度函数为:
p ( Y ( w k ) ; λ x ( k ) ) = 1 π ( λ x ( k ) + λ d ( k ) ) e x p ( − Y k 2 λ x ( k ) + λ d ( k ) ) (7) p(Y(w_k);\lambda_x(k)) = \frac{1}{\pi(\lambda_x(k)+\lambda_d(k))}exp(-\frac{Y_k^2}{\lambda_x(k)+\lambda_d(k)}) \tag{7} p(Y(wk);λx(k))=π(λx(k)+λd(k))1exp(λx(k)+λd(k)Yk2)(7)

最大化似然函数,可得 λ x ( k ) \lambda_x(k) λx(k)的估计为:
λ ^ x ( k ) = Y k 2 − λ d ( k ) (8) \hat\lambda_x(k)=Y_k^2-\lambda_d(k) \tag{8} λ^x(k)=Yk2λd(k)(8)

将公式(2)带入公式(4),得,
X k ^ = Y k 2 − D k 2 (9) \hat{X_k}=\sqrt{Y_k^2-D_k^2} \tag{9} Xk^=Yk2Dk2 (9)

这个结果和功率谱减法的结果一致。

贝叶斯估计器

贝叶斯估计器是指利用贝叶斯定理进行参数估计的一种方法。贝叶斯定理是指
p ( X k ∣ Y ( w k ) ) = p ( Y ( w k ) ∣ X k ) p ( X k ) p ( Y ( w k ) ) (10) p(X_k|Y(w_k))=\frac{p(Y(w_k)|X_k)p(X_k)}{p(Y(w_k))} \tag{10} p(XkY(wk))=p(Y(wk))p(Y(wk)Xk)p(Xk)(10)

其中 p ( X k ) p(X_k) p(Xk)是先验概率,贝叶斯理论的主要思想是利用能够事件的先验信息来提高预测的准确性。贝叶斯估计器一般和其他估计器结合使用形成通用贝叶斯估计器,例如语音降噪算法中会利用估计的语音存在概率作为先验信息来优化增益函数,而语音的存在概率由先验语音缺失概率 P ( H 0 ) P(H_0) P(H0)、先验信噪比、后验信噪比和概率密度函数通过贝叶斯理论推理得出。

MMSE估计器

MMSE(Minimum Mean Squared Error)估计器就是使得估计的参数和实际参数在最小均分误差准则下达到最优。例如之前写的维纳滤波就是最小均分误差准则下的最优复频谱估计器,但不是最优的幅度估计,语音降噪算法中更多的是估计最优的幅度,即,
e = E { ( X k ) ^ − X k ) 2 } (11) e=E\{(\hat{X_k)}- X_k)^2\} \tag{11} e=E{(Xk)^Xk)2}(11)

其中 X k ^ \hat{X_k} Xk^是在频率 w k w_k wk下估计的幅度谱, X k X_k Xk是在频率 w k w_k wk下的实际幅度谱。

传统MSE

M S E ( X k ^ ) = ∫ ( X k − X k ^ ) 2 p ( Y ; X k ) d X k (12) MSE(\hat{X_k}) = \int(X_k - \hat{X_k})^2p(Y;X_k)dX_k \tag{12} MSE(Xk^)=(XkXk^)2p(Y;Xk)dXk(12)

贝叶斯MSE

B M S E ( X k ^ ) = ∫ ∫ ( X k − X k ^ ) 2 p ( Y , X k ) d Y d X k (13) BMSE(\hat{X_k}) = \int\int(X_k - \hat{X_k})^2p(Y,X_k)dYdX_k \tag{13} BMSE(Xk^)=(XkXk^)2p(Y,Xk)dYdXk(13)

X k ^ = ∫ X k p ( X k ∣ Y ) d X k = E ( X k ∣ Y ) (14) \hat{X_k}=\int X_kp(X_k|Y)dX_k=E(X_k|Y)\tag{14} Xk^=Xkp(XkY)dXk=E(XkY)(14)

利用贝叶斯定理,
p ( X k ∣ Y ( w k ) ) = p ( Y ( w k ) ∣ X k ) p ( X k ) p ( Y ( w k ) ) = p ( Y ( w k ) ∣ X k ) p ( X k ) ∫ 0 ∞ p ( Y ( w k ) ∣ X k ) p ( x k ) d x k (15) p(X_k|Y(w_k))=\frac{p(Y(w_k)|X_k)p(X_k)}{p(Y(w_k))}=\frac{p(Y(w_k)|X_k)p(X_k)}{\int_0^\infty p(Y(w_k)|X_k)p(x_k)dx_k} \tag{15} p(XkY(wk))=p(Y(wk))p(Y(wk)Xk)p(Xk)=0p(Y(wk)Xk)p(xk)dxkp(Y(wk)Xk)p(Xk)(15)

其中 p ( X k ) 是 先 验 信 息 , 利 用 合 适 的 先 验 信 息 可 以 提 供 估 计 的 准 确 性 。 p(X_k)是先验信息,利用合适的先验信息可以提供估计的准确性。 p(Xk)

Log-MMSE估计器

线性幅度谱的误差估计在数学上容易处理,但不符合听觉上的人耳响应曲线,有人建议使用对数幅度谱误差平方更合适,即,
e = E { l o g X k ^ − l o g X k ) 2 } (16) e=E\{log\hat{X_k}- logX_k)^2\}\tag{16} e=E{logXk^logXk)2}(16)

l o g X k logX_k logXk条件均值,可得,
l o g X k ^ = E { l o g X k ∣ Y ( w k ) } X k ^ = e x p ( E { l o g X k ∣ Y ( w k ) } ) (17) log\hat{X_k}=E\{log X_k|Y(w_k)\}\\ \hat{X_k} = exp(E\{log X_k|Y(w_k)\}) \tag{17} logXk^=E{logXkY(wk)}Xk^=exp(E{logXkY(wk)})(17)

MAP估计器

MAP(MAXIMUM A POSTERIORI)估计器就是使得 p ( X k ∣ Y ( w k ) ) p(X_k|Y(w_k)) p(XkY(wk))最大的估计,即最大化公式(10)。

参考

Loizou P C. Speech enhancement: theory and practice[M]. CRC press, 2007.
StevenM.Kay. 统计信号处理基础:estimation theory, detection theory:估计与检测理论[M]. 电子工业出版社, 2006.

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值