统计模型和贝叶斯方法在对数功率谱域的噪声鲁棒性应用

统计模型和贝叶斯方法

语音增强的问题是离不开统计模型框架的,即从一组未知参数的观察值,找出未知参数的估计器。这些估计器最具代表的是最大似然ML和最大后验MAP两种方法,MAP被认为是bayesian估计器是没有异议的,但【1】中认为ML属于假设一组未知但确定的参数 θ \theta θ,通过观察值 y y y来寻找是 p ( y ; θ ) p(y;\theta) p(y;θ)最大化的 θ \theta θ值,即: θ ^ M L = arg max ⁡ θ   p ( y ; θ ) \hat \theta_{ML}=\argmax_\theta\ p(y;\theta)\\ θ^ML=θargmax p(y;θ)
这里 p ( y ; θ ) p(y;\theta) p(y;θ)被定义为似然函数,其实联想一下,假设这个概率模型符合高斯分布,那么求似然函数参数的过程都是围绕 这统计均值和方差的。一般的方法是对 θ \theta θ求导,令倒数为 0 0 0,进而求解。也有变换到对数域(对数似然函数)求解,为了便于计算。但【2】中将两者都视为bayesian估计器,他所依据的是公式 f Θ ∣ Y ( θ ∣ y ) ⏟ P o s t e r i o r = 1 f Y ( y ) f Y ∣ Θ ( y ∣ θ ) ⏟ L i k e l i h o o d f Θ ( θ ) ⏟ P r i o r \begin{matrix} \underbrace{ f_{\Theta|Y}(\theta|y) } \\ Posterior \end{matrix}=\frac{1}{f_Y(y)}\begin{matrix} \underbrace{ f_{Y|\Theta}(y|\theta) } \\ Likelihood\end{matrix}\begin{matrix} \underbrace{ f_{\Theta}(\theta) } \\ Prior\end{matrix} fΘY(θy)Posterior=fY(y)1 fYΘ(yθ)Likelihood fΘ(θ)Prior因为这部专著有很详细的数学推导,所以下文按照这个来,最后可以获得本篇需要的EM算法的推导。

贝叶斯估计

【2】定义的估计方法都是遵循所谓的贝叶斯风险函数最小化而来的,这个函数即为误差函数(损失函数)的数学期望: R ( θ ^ ) = E [ C ( θ ^ , θ ) ] = ∫ θ ∫ y C ( θ ^ , θ ) f Y , Θ ( y , θ ) d y   d θ = ∫ θ ∫ y C ( θ ^ , θ ) f Y ∣ Θ ( y ∣ θ ) f Θ ( θ ) d y   d θ = ∫ θ ∫ y C ( θ ^ , θ ) f Y ∣ Θ ( y ∣ θ ) f Y ( y ) d y   d θ \begin{aligned} \mathcal{R}(\hat \theta)&=\boldsymbol{E}[C(\hat \theta, \theta)]\\ &=\int_\theta \int_y C(\hat \theta, \theta) f_{Y,\Theta}(y,\theta) dy\ d\theta\\ &=\int_\theta \int_y C(\hat \theta, \theta) f_{Y|\Theta}(y|\theta) f_\Theta(\theta) dy\ d\theta\\ &=\int_\theta \int_y C(\hat \theta, \theta) f_{Y|\Theta}(y|\theta) f_Y(y) dy\ d\theta \end{aligned} R(θ^)=E[C(θ^,θ)]=θyC(θ^,θ)fY,Θ(y,θ)dy dθ=θyC(θ^,θ)fYΘ(yθ)fΘ(θ)dy dθ=θyC(θ^,θ)fYΘ(yθ)fY(y)dy dθ
如果观测向量 y y y已知并且确定,那么关于 y y y的概率积分为常数,这里假设为1,则得到条件风险函数 R ( θ ^ ∣ y ) = ∫ θ C ( θ ^ , θ ) f Θ ∣ Y ( θ ∣ y ) d θ \begin{aligned} \mathcal{R}(\hat \theta|y)&=\int_\theta C(\hat \theta, \theta) f_{\Theta|Y}(\theta|y) d\theta \end{aligned} R(θ^y)=θC(θ^,θ)fΘY(θy)dθ
对于 θ ^ \hat \theta θ^的估计,即要求得上式最小值的参数估计 θ ^ B a y e s i a n = arg min ⁡ θ ^   R ( θ ^ ∣ y ) = arg min ⁡ θ ^   ∫ θ C ( θ ^ , θ ) f Θ ∣ Y ( θ ∣ y ) d θ \hat \theta_{Bayesian}=\argmin_{\hat \theta}\ \mathcal{R}(\hat \theta|y)=\argmin_{\hat \theta}\ \int_\theta C(\hat \theta, \theta) f_{\Theta|Y}(\theta|y)d\theta θ^Bayesian=θ^argmin R(θ^y)=θ^argmin θC(θ^,θ)fΘY(θy)dθ上面这个是基于后验概率的积分表达。
根据上面 y y y的概率积分假设为1的贝叶斯规则,还可以改写成 θ ^ B a y e s i a n = arg min ⁡ θ ^   ∫ θ C ( θ ^ , θ ) f Y ∣ Θ ( y ∣ θ ) f Θ ( θ ) d θ \hat \theta_{Bayesian}=\argmin_{\hat \theta}\ \int_\theta C(\hat \theta, \theta) f_{Y|\Theta}(y|\theta) f_\Theta(\theta) d\theta θ^Bayesian=θ^argmin θC(θ^,θ)fYΘ(yθ)fΘ(θ)dθ这样就得到基于似然概率和先验概率的积分表达。

MAP最大后验概率和ML最大似然估计

从贝叶斯估计的角度,需要设计一个陷波器价值函数,即当 θ ^ = θ \hat \theta= \theta θ^=θ的时候, C ( θ ^ , θ ) = m i n C(\hat \theta, \theta) = min C(θ^,θ)=min,由此利用克罗内克符号 k r o n e c k e r d e l t a kronecker delta kroneckerdelta设计如下价值函数: C ( θ ^ , θ ) = 1 − δ ( θ ^ − θ ) C(\hat \theta, \theta) =1-\delta(\hat \theta- \theta) C(θ^,θ)=1δ(θ^θ)将此式带入后验积分 R ( θ ^ ∣ y ) = ∫ θ [ 1 − δ ( θ ^ − θ ) ] f Θ ∣ Y ( θ ∣ y ) d θ = 1 − f Θ ∣ Y ( θ ∣ y ) \begin{aligned} \mathcal{R}(\hat \theta|y)&=\int_\theta [1-\delta(\hat \theta- \theta)] f_{\Theta|Y}(\theta|y) d\theta\\ &=1-f_{\Theta|Y}(\theta|y) \end{aligned} R(θ^y)=θ[1δ(θ^θ)]fΘY(θy)dθ=1fΘY(θy)那么最小化风险函数就变成了最大化后验函数 θ ^ M a p = arg max ⁡ θ f Θ ∣ Y ( θ ∣ y ) = arg max ⁡ θ f Y ∣ Θ ( y ∣ θ ) f Θ ( θ ) \begin{aligned} \hat \theta_{Map}&=\argmax_\theta f_{\Theta|Y}(\theta|y)\\ &=\argmax_\theta f_{Y|\Theta}(y|\theta) f_\Theta(\theta) \end{aligned} θ^Map=θargmaxfΘY(θy)=θargmaxfYΘ(yθ)fΘ(θ)如果先验概率 f Θ ( θ ) f_\Theta(\theta) fΘ(θ)已经获得,并且假设是不变的,那么上式就演变为求解最大似然函数,即ML方法: θ ^ M l = arg max ⁡ θ f Y ∣ Θ ( y ∣ θ ) \begin{aligned} \hat \theta_{Ml}=\argmax_\theta f_{Y|\Theta}(y|\theta) \end{aligned} θ^Ml=θargmaxfYΘ(yθ)通常为了降低概率密度函数的乘除法计算复杂都,采用对数似然求解:
θ ^ M l = arg max ⁡ θ l o g ( f Y ∣ Θ ( y ∣ θ ) ) \begin{aligned} \hat \theta_{Ml}=\argmax_\theta log(f_{Y|\Theta}(y|\theta)) \end{aligned} θ^Ml=θargmaxlog(fYΘ(yθ))

EM方法估计GMM的参数

EM方法是在无法给出全部观测数据的情况下估计参数 θ \theta θ的方法,通过迭代,发现似然函数 f X ∣ Θ ( x ∣ θ ) f_{X|\Theta}(x|\theta) fXΘ(xθ)的期望(Expectation)最大化(Maximisation)的办法,很显然这是上述ML在真实世界中的常用算法。假定观测数据集为 y y y,最大化方法就变成了条件概率的数学期望: E [ l n f X ∣ Θ ( x ∣ θ ) ∣ y ] = ∫ x f X / Y , Θ ( x ∣ y , t h e t a )   l n f X ∣ Θ ( x ∣ θ ) d x E[ln f_{X|\Theta}(x|\theta)|y]=\int_x f_{X/Y,\Theta}(x|y,theta)\ ln f_{X|\Theta}(x|\theta) dx E[lnfXΘ(xθ)y]=xfX/Y,Θ(xy,theta) lnfXΘ(xθ)dx通用的推导太烧脑,所以摘抄【2】利用EM方法估计GMM参数的过程,首先假设不完整数据集合 y ( m ) , m = 0 , . . . , N − 1 y(m),m=0,...,N-1 y(m),m=0,...,N1,完整数据 x ( m ) = [ y ( m ) , k ] = y k ( m ) , m = 0 , . . . , N − 1 , k ∈ ( 1 , . . . K ) x(m)=[y(m),k]=y_k(m) ,m=0,...,N-1,k\in(1,...K) x(m)=[y(m),k]=yk(m),m=0,...,N1,k(1,...K)完整数据集的概率是 y ( m ) y(m) y(m)有一个标签 k k k,并且属于混合密度的第k个单元的概率【2】,所以EM方法应用的第一步就是定义一个条件概率期望,这个条件即给定的观察向量和当前估计的参数向量: U ( Θ , Θ ^ ) = E [ l n f Y , K ; Θ ( y ( m ) , k ; Θ ) ∣ y ( m ) ; Θ ^ ] = ∑ m = 0 N − 1 ∑ k = 1 K f Y , K ; Θ ( y ( m ) , k ∣ Θ ) f Y ∣ Θ ( y ( m ) ∣ Θ ^ )   l n   f Y , K ; Θ ( y ( m ) , k ; Θ ) \begin{aligned} U(\Theta,\hat \Theta)&=E[ln f_{Y,K;\Theta}(y(m),k;\Theta)|y(m);\hat \Theta]\\ &=\sum_{m=0}^{N-1}\sum_{k=1}^K\frac{f_{Y,K;\Theta}(y(m),k|\Theta)}{f_{Y|\Theta}(y(m)|\hat \Theta)}\ ln\ f_{Y,K;\Theta}(y(m),k;\Theta) \end{aligned} U(Θ,Θ^)=E[lnfY,K;Θ(y(m),k;Θ)y(m);Θ^]=m=0N1k=1KfYΘ(y(m)Θ^)fY,K;Θ(y(m),kΘ) ln fY,K;Θ(y(m),k;Θ)在GMM模型中,混合高斯密度函数可以表示为 f X ( x ) = ∑ k = 1 K P k   N k ( x ; μ k , Σ k ) f_X(x)=\sum_{k=1}^KP_k\ \mathcal N_k(x;\mu_{k},\Sigma_k) fX(x)=k=1KPk Nk(x;μk,Σk) 那 么 所 要 估 计 的 参 数 Θ = { θ = [ P k , μ k , Σ k ] , k = 1 , . . . , K } 那么所要估计的参数\Theta=\{\theta=[P_k,\mu_k,\Sigma_k],k=1,...,K\} Θ={θ=[Pk,μk,Σk],k=1,...,K}。而高斯混合密度模型第k个单元与y(m)在klabel下的联合密度函数可以表示为 f Y , K ∣ Θ ( y ( m ) , k ∣ θ ^ i ) = P k   f k ( y ( m ) ∣ θ ^ k ) = P k   N k ( y ( m ) ; μ ^ k , Σ ^ k ) f_{Y,K|\Theta}(y(m),k|\hat \theta_i)=P_k\ f_k(y(m)|\hat \theta_k)=P_k\ \mathcal N_k(y(m);\hat \mu_{k},\hat \Sigma_k) fY,KΘ(y(m),kθ^i)=Pk fk(y(m)θ^k)=Pk Nk(y(m);μ^k,Σ^k)这里 N k ( y ( m ) ; μ k , Σ k ) = 1 ( 2 π ) P / 2 ∣ Σ ^ ∣ 1 / 2 e x p { − 1 2 ( y ( m ) − μ ^ k ) T Σ ^ k − 1 ( y ( m ) − μ ^ k ) } \mathcal N_k(y(m);\mu_{k},\Sigma_k)=\frac{1}{(2\pi)^{P/2}|\hat \Sigma|^{1/2}}exp\{-\frac{1}{2}(y(m)-\hat\mu_k)^T\hat\Sigma_k^{-1}(y(m)-\hat\mu_k)\} Nk(y(m);μk,Σk)=(2π)P/2Σ^1/21exp{21(y(m)μ^k)TΣ^k1(y(m)μ^k)} y ( m ) y(m) y(m)的混合高斯模型 f Y ∣ θ ( y ( m ) ∣ θ ^ i ) = N k ( y ( m ) ∣ θ ^ i ) = ∑ k = 1 K P k i   N k ( y ( m ) ; μ ^ k i , Σ ^ k i ) f_{Y|\theta}(y(m)|\hat\theta_i)=\mathcal N_k(y(m)|\hat\theta_i)=\sum_{k=1}^KP_{k_i}\ \mathcal N_k(y(m);\hat\mu_{k_i},\hat\Sigma_{k_i}) fYθ(y(m)θ^i)=Nk(y(m)θ^i)=k=1KPki Nk(y(m);μ^ki,Σ^ki)带入到条件期望公式 U ( [ P , μ , Σ ] , [ P ^ i , μ ^ i , Σ ^ i ] ) = ∑ m = 0 N − 1 ∑ k = 1 K P ^ k   N k ( y ( m ) ; μ ^ k , Σ ^ k ) N k ( y ( m ) ∣ Θ ^ i )   l n   P k   N k ( y ( m ) ; μ ^ k , Σ ^ k ) = ∑ m = 0 N − 1 ∑ k = 1 K ( P ^ k   N k ( y ( m ) ; μ ^ k , Σ ^ k ) N k ( y ( m ) ∣ Θ ^ i )   l n   P k   + P ^ k   N k ( y ( m ) ; μ ^ k , Σ ^ k ) N k ( y ( m ) ∣ Θ ^ i )   l n   N k ( y ( m ) ; μ ^ k , Σ ^ k ) ) \begin{aligned} U([P,\mu,\Sigma],[\hat P_i,\hat\mu_i,\hat\Sigma_i])=\sum_{m=0}^{N-1}\sum_{k=1}^K&\frac{\hat P_k\ \mathcal N_k(y(m);\hat \mu_{k},\hat \Sigma_k)}{\mathcal N_k(y(m)|\hat\Theta_i)}\ ln\ P_k\ \mathcal N_k(y(m);\hat \mu_{k},\hat \Sigma_k)\\=\sum_{m=0}^{N-1}\sum_{k=1}^K&\big(\frac{\hat P_k\ \mathcal N_k(y(m);\hat \mu_{k},\hat \Sigma_k)}{\mathcal N_k(y(m)|\hat\Theta_i)}\ ln\ P_k\\&\ +\frac{\hat P_k\ \mathcal N_k(y(m);\hat \mu_{k},\hat \Sigma_k)}{\mathcal N_k(y(m)|\hat\Theta_i)}\ ln\ \mathcal N_k(y(m);\hat \mu_{k},\hat \Sigma_k)\big) \end{aligned} U([P,μ,Σ],[P^i,μ^i,Σ^i])=m=0N1k=1K=m=0N1k=1KNk(y(m)Θ^i)P^k Nk(y(m);μ^k,Σ^k) ln Pk Nk(y(m);μ^k,Σ^k)(Nk(y(m)Θ^i)P^k Nk(y(m);μ^k,Σ^k) ln Pk +Nk(y(m)Θ^i)P^k Nk(y(m);μ^k,Σ^k) ln Nk(y(m);μ^k,Σ^k))
再次基础上对三类参数求偏导等于0的算式,得出估计算式 P ^ k i + 1 = arg max ⁡ P k U ( [ P , μ , Σ ] , [ P ^ i , μ ^ i , Σ ^ i ] ) = 1 N ∑ m = 0 N − 1 P ^ k i   N k ( y ( m ) ; μ ^ k i , Σ ^ k i ) N ( y ( m ) ∣ Θ ^ i ) μ ^ k i + 1 = arg max ⁡ μ k U ( [ P , μ , Σ ] , [ P ^ i , μ ^ i , Σ ^ i ] ) = ∑ m = 0 N − 1 P ^ k i   N k ( y ( m ) ; μ ^ k i , Σ ^ k i ) N ( y ( m ) ∣ Θ ^ i ) y ( m ) ∑ m = 0 N − 1 P ^ k i   N k ( y ( m ) ; μ ^ k i , Σ ^ k i ) N ( y ( m ) ∣ Θ ^ i ) Σ ^ k i + 1 = arg max ⁡ Σ k U ( [ P , μ , Σ ] , [ P ^ i , μ ^ i , Σ ^ i ] ) = ∑ m = 0 N − 1 P ^ k i   N k ( y ( m ) ; μ ^ k i , Σ ^ k i ) N ( y ( m ) ∣ Θ ^ i ) ( y ( m ) − μ ^ k i ) ( y ( m ) − μ ^ k i ) T ∑ m = 0 N − 1 P ^ k i   N k ( y ( m ) ; μ ^ k i , Σ ^ k i ) N ( y ( m ) ∣ Θ ^ i ) \begin{aligned} \hat P_{k_{i+1}}&=\argmax_{P_k}U([P,\mu,\Sigma],[\hat P_i,\hat\mu_i,\hat\Sigma_i])\\ &=\frac{1}{N}\sum_{m=0}^{N-1}\frac{\hat P_{k_i}\ \mathcal N_k(y(m);\hat \mu_{k_i},\hat \Sigma_{k_i})}{\mathcal N(y(m)|\hat\Theta_{i})}\\ \hat \mu_{k_{i+1}}&=\argmax_{\mu_k}U([P,\mu,\Sigma],[\hat P_i,\hat\mu_i,\hat\Sigma_i])\\ &=\frac{\sum_{m=0}^{N-1}\frac{\hat P_{k_i}\ \mathcal N_k(y(m);\hat \mu_{k_i},\hat \Sigma_{k_i})}{\mathcal N(y(m)|\hat\Theta_{i})}y(m)}{\sum_{m=0}^{N-1}\frac{\hat P_{k_i}\ \mathcal N_k(y(m);\hat \mu_{k_i},\hat \Sigma_{k_i})}{\mathcal N(y(m)|\hat\Theta_{i})}}\\ \hat \Sigma_{k_{i+1}}&=\argmax_{\Sigma_k}U([P,\mu,\Sigma],[\hat P_i,\hat\mu_i,\hat\Sigma_i])\\ &=\frac{\sum_{m=0}^{N-1}\frac{\hat P_{k_i}\ \mathcal N_k(y(m);\hat \mu_{k_i},\hat \Sigma_{k_i})}{\mathcal N(y(m)|\hat\Theta_{i})}(y(m)-\hat \mu_{k_i})(y(m)-\hat \mu_{k_i})^T}{\sum_{m=0}^{N-1}\frac{\hat P_{k_i}\ \mathcal N_k(y(m);\hat \mu_{k_i},\hat \Sigma_{k_i})}{\mathcal N(y(m)|\hat\Theta_{i})}}\\ \end{aligned} P^ki+1μ^ki+1Σ^ki+1=PkargmaxU([P,μ,Σ],[P^i,μ^i,Σ^i])=N1m=0N1N(y(m)Θ^i)P^ki Nk(y(m);μ^ki,Σ^ki)=μkargmaxU([P,μ,Σ],[P^i,μ^i,Σ^i])=m=0N1N(y(m)Θ^i)P^ki Nk(y(m);μ^ki,Σ^ki)m=0N1N(y(m)Θ^i)P^ki Nk(y(m);μ^ki,Σ^ki)y(m)=ΣkargmaxU([P,μ,Σ],[P^i,μ^i,Σ^i])=m=0N1N(y(m)Θ^i)P^ki Nk(y(m);μ^ki,Σ^ki)m=0N1N(y(m)Θ^i)P^ki Nk(y(m);μ^ki,Σ^ki)(y(m)μ^ki)(y(m)μ^ki)T上述公式细节太烧脑,不深挖了。

对数功率谱域的降噪范式

【3】中提到了如下公式
l n ∣ Y ( f k ) ∣ 2 = l n ∣ X ( f k ) ∣ 2 + l n ∣ H ( f k ) ∣ 2 + l n ( 1 + e x p ( ∣ N ( f k ) ∣ 2 − l n ∣ X ( f k ) ∣ 2 − l n ∣ H ( f k ) ∣ 2 ) ) ln|Y(f_k)|^2=ln|X(f_k)|^2+ln|H(f_k)|^2+ln(1+exp(|N(f_k)|^2-ln|X(f_k)|^2-ln|H(f_k)|^2)) lnY(fk)2=lnX(fk)2+lnH(fk)2+ln(1+exp(N(fk)2lnX(fk)2lnH(fk)2))基于此算式,很多学者提出了各种噪声鲁棒性算法,语者自适应算法等等。

参考文档

1.语音增强理论与实践, (美)罗爱洲, (译)高毅等
2.Advanced Digital Signal Processing and Noise Reduction, Saeed V. Vaseghi
3.泰勒级数在语音增强中的应用

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值