统计模型和贝叶斯方法在对数功率谱域的噪声鲁棒性应用

最新推荐文章于 2022-01-05 14:43:25 发布

西岸行者

最新推荐文章于 2022-01-05 14:43:25 发布

阅读量269

点赞数

分类专栏：机器学习噪声消除

本文链接：https://blog.csdn.net/golfbears/article/details/118307798

版权

噪声消除同时被 2 个专栏收录

18 篇文章 11 订阅

订阅专栏

机器学习

13 篇文章 0 订阅

订阅专栏

统计模型和贝叶斯方法在对数功率谱域的噪声鲁棒性应用

统计模型和贝叶斯方法
对数功率谱域的降噪范式
参考文档

统计模型和贝叶斯方法

语音增强的问题是离不开统计模型框架的，即从一组未知参数的观察值，找出未知参数的估计器。这些估计器最具代表的是最大似然ML和最大后验MAP两种方法，MAP被认为是bayesian估计器是没有异议的，但【1】中认为ML属于假设一组未知但确定的参数 $\theta$ ，通过观察值 $y$ 来寻找是 $p(y;\theta)$ 最大化的 $\theta$ 值，即： $\hat \theta_{ML}=\argmax_\theta\ p(y;\theta)\\$
这里 $p(y;\theta)$ 被定义为似然函数，其实联想一下，假设这个概率模型符合高斯分布，那么求似然函数参数的过程都是围绕这统计均值和方差的。一般的方法是对 $\theta$ 求导，令倒数为 $0$ ，进而求解。也有变换到对数域（对数似然函数）求解，为了便于计算。但【2】中将两者都视为bayesian估计器，他所依据的是公式 $\begin{matrix} \underbrace{ f_{\Theta|Y}(\theta|y) } \\ Posterior \end{matrix}=\frac{1}{f_Y(y)}\begin{matrix} \underbrace{ f_{Y|\Theta}(y|\theta) } \\ Likelihood\end{matrix}\begin{matrix} \underbrace{ f_{\Theta}(\theta) } \\ Prior\end{matrix}$ 因为这部专著有很详细的数学推导，所以下文按照这个来，最后可以获得本篇需要的EM算法的推导。

贝叶斯估计

【2】定义的估计方法都是遵循所谓的贝叶斯风险函数最小化而来的，这个函数即为误差函数（损失函数）的数学期望： $\begin{aligned} \mathcal{R}(\hat \theta)&=\boldsymbol{E}[C(\hat \theta, \theta)]\\ &=\int_\theta \int_y C(\hat \theta, \theta) f_{Y,\Theta}(y,\theta) dy\ d\theta\\ &=\int_\theta \int_y C(\hat \theta, \theta) f_{Y|\Theta}(y|\theta) f_\Theta(\theta) dy\ d\theta\\ &=\int_\theta \int_y C(\hat \theta, \theta) f_{Y|\Theta}(y|\theta) f_Y(y) dy\ d\theta \end{aligned}$
如果观测向量 $y$ 已知并且确定，那么关于 $y$ 的概率积分为常数，这里假设为1，则得到条件风险函数 $\begin{aligned} \mathcal{R}(\hat \theta|y)&=\int_\theta C(\hat \theta, \theta) f_{\Theta|Y}(\theta|y) d\theta \end{aligned}$
对于 $\hat \theta$ 的估计，即要求得上式最小值的参数估计 $\hat \theta_{Bayesian}=\argmin_{\hat \theta}\ \mathcal{R}(\hat \theta|y)=\argmin_{\hat \theta}\ \int_\theta C(\hat \theta, \theta) f_{\Theta|Y}(\theta|y)d\theta$ 上面这个是基于后验概率的积分表达。
根据上面 $y$ 的概率积分假设为1的贝叶斯规则，还可以改写成 $\hat \theta_{Bayesian}=\argmin_{\hat \theta}\ \int_\theta C(\hat \theta, \theta) f_{Y|\Theta}(y|\theta) f_\Theta(\theta) d\theta$ 这样就得到基于似然概率和先验概率的积分表达。

MAP最大后验概率和ML最大似然估计

从贝叶斯估计的角度，需要设计一个陷波器价值函数，即当 $\hat \theta= \theta$ 的时候， $C(\hat \theta, \theta) = min$ ，由此利用克罗内克符号 $k r o n e c k e r d e l t a$ 设计如下价值函数： $C(\hat \theta, \theta) =1-\delta(\hat \theta- \theta)$ 将此式带入后验积分 $\begin{aligned} \mathcal{R}(\hat \theta|y)&=\int_\theta [1-\delta(\hat \theta- \theta)] f_{\Theta|Y}(\theta|y) d\theta\\ &=1-f_{\Theta|Y}(\theta|y) \end{aligned}$ 那么最小化风险函数就变成了最大化后验函数 $\begin{aligned} \hat \theta_{Map}&=\argmax_\theta f_{\Theta|Y}(\theta|y)\\ &=\argmax_\theta f_{Y|\Theta}(y|\theta) f_\Theta(\theta) \end{aligned}$ 如果先验概率 $f_\Theta(\theta)$ 已经获得，并且假设是不变的，那么上式就演变为求解最大似然函数，即ML方法： $\begin{aligned} \hat \theta_{Ml}=\argmax_\theta f_{Y|\Theta}(y|\theta) \end{aligned}$ 通常为了降低概率密度函数的乘除法计算复杂都，采用对数似然求解：
$\begin{aligned} \hat \theta_{Ml}=\argmax_\theta log(f_{Y|\Theta}(y|\theta)) \end{aligned}$

EM方法估计GMM的参数

EM方法是在无法给出全部观测数据的情况下估计参数 $\theta$ 的方法，通过迭代，发现似然函数 $f_{X|\Theta}(x|\theta)$ 的期望（Expectation）最大化（Maximisation）的办法，很显然这是上述ML在真实世界中的常用算法。假定观测数据集为 $y$ ，最大化方法就变成了条件概率的数学期望： $f_{X|\Theta}(x|\theta)|y]=\int_x f_{X/Y,\Theta}(x|y,theta)\ ln f_{X|\Theta}(x|\theta) dx$ 通用的推导太烧脑，所以摘抄【2】利用EM方法估计GMM参数的过程，首先假设不完整数据集合 $y (m), m = 0, . . ., N - 1$ ，完整数据 $x(m)=[y(m),k]=y_k(m) ,m=0,...,N-1,k\in(1,...K)$ 完整数据集的概率是 $y (m)$ 有一个标签 $k$ ，并且属于混合密度的第k个单元的概率【2】，所以EM方法应用的第一步就是定义一个条件概率期望，这个条件即给定的观察向量和当前估计的参数向量: $\begin{aligned} U(\Theta,\hat \Theta)&=E[ln f_{Y,K;\Theta}(y(m),k;\Theta)|y(m);\hat \Theta]\\ &=\sum_{m=0}^{N-1}\sum_{k=1}^K\frac{f_{Y,K;\Theta}(y(m),k|\Theta)}{f_{Y|\Theta}(y(m)|\hat \Theta)}\ ln\ f_{Y,K;\Theta}(y(m),k;\Theta) \end{aligned}$ 在GMM模型中,混合高斯密度函数可以表示为 $f_X(x)=\sum_{k=1}^KP_k\ \mathcal N_k(x;\mu_{k},\Sigma_k)$ $那么所要估计的参数\Theta=\{\theta=[P_k,\mu_k,\Sigma_k],k=1,...,K\}$ 。而高斯混合密度模型第k个单元与y(m)在klabel下的联合密度函数可以表示为 $f_{Y,K|\Theta}(y(m),k|\hat \theta_i)=P_k\ f_k(y(m)|\hat \theta_k)=P_k\ \mathcal N_k(y(m);\hat \mu_{k},\hat \Sigma_k)$ 这里 $\mathcal N_k(y(m);\mu_{k},\Sigma_k)=\frac{1}{(2\pi)^{P/2}|\hat \Sigma|^{1/2}}exp\{-\frac{1}{2}(y(m)-\hat\mu_k)^T\hat\Sigma_k^{-1}(y(m)-\hat\mu_k)\}$ $y (m)$ 的混合高斯模型 $f_{Y|\theta}(y(m)|\hat\theta_i)=\mathcal N_k(y(m)|\hat\theta_i)=\sum_{k=1}^KP_{k_i}\ \mathcal N_k(y(m);\hat\mu_{k_i},\hat\Sigma_{k_i})$ 带入到条件期望公式 $\begin{aligned} U([P,\mu,\Sigma],[\hat P_i,\hat\mu_i,\hat\Sigma_i])=\sum_{m=0}^{N-1}\sum_{k=1}^K&\frac{\hat P_k\ \mathcal N_k(y(m);\hat \mu_{k},\hat \Sigma_k)}{\mathcal N_k(y(m)|\hat\Theta_i)}\ ln\ P_k\ \mathcal N_k(y(m);\hat \mu_{k},\hat \Sigma_k)\\=\sum_{m=0}^{N-1}\sum_{k=1}^K&\big(\frac{\hat P_k\ \mathcal N_k(y(m);\hat \mu_{k},\hat \Sigma_k)}{\mathcal N_k(y(m)|\hat\Theta_i)}\ ln\ P_k\\&\ +\frac{\hat P_k\ \mathcal N_k(y(m);\hat \mu_{k},\hat \Sigma_k)}{\mathcal N_k(y(m)|\hat\Theta_i)}\ ln\ \mathcal N_k(y(m);\hat \mu_{k},\hat \Sigma_k)\big) \end{aligned}$
再次基础上对三类参数求偏导等于0的算式，得出估计算式 $\begin{aligned} \hat P_{k_{i+1}}&=\argmax_{P_k}U([P,\mu,\Sigma],[\hat P_i,\hat\mu_i,\hat\Sigma_i])\\ &=\frac{1}{N}\sum_{m=0}^{N-1}\frac{\hat P_{k_i}\ \mathcal N_k(y(m);\hat \mu_{k_i},\hat \Sigma_{k_i})}{\mathcal N(y(m)|\hat\Theta_{i})}\\ \hat \mu_{k_{i+1}}&=\argmax_{\mu_k}U([P,\mu,\Sigma],[\hat P_i,\hat\mu_i,\hat\Sigma_i])\\ &=\frac{\sum_{m=0}^{N-1}\frac{\hat P_{k_i}\ \mathcal N_k(y(m);\hat \mu_{k_i},\hat \Sigma_{k_i})}{\mathcal N(y(m)|\hat\Theta_{i})}y(m)}{\sum_{m=0}^{N-1}\frac{\hat P_{k_i}\ \mathcal N_k(y(m);\hat \mu_{k_i},\hat \Sigma_{k_i})}{\mathcal N(y(m)|\hat\Theta_{i})}}\\ \hat \Sigma_{k_{i+1}}&=\argmax_{\Sigma_k}U([P,\mu,\Sigma],[\hat P_i,\hat\mu_i,\hat\Sigma_i])\\ &=\frac{\sum_{m=0}^{N-1}\frac{\hat P_{k_i}\ \mathcal N_k(y(m);\hat \mu_{k_i},\hat \Sigma_{k_i})}{\mathcal N(y(m)|\hat\Theta_{i})}(y(m)-\hat \mu_{k_i})(y(m)-\hat \mu_{k_i})^T}{\sum_{m=0}^{N-1}\frac{\hat P_{k_i}\ \mathcal N_k(y(m);\hat \mu_{k_i},\hat \Sigma_{k_i})}{\mathcal N(y(m)|\hat\Theta_{i})}}\\ \end{aligned}$ 上述公式细节太烧脑，不深挖了。