统计模型和贝叶斯方法在对数功率谱域的噪声鲁棒性应用
统计模型和贝叶斯方法
语音增强的问题是离不开统计模型框架的,即从一组未知参数的观察值,找出未知参数的估计器。这些估计器最具代表的是最大似然ML和最大后验MAP两种方法,MAP被认为是bayesian估计器是没有异议的,但【1】中认为ML属于假设一组未知但确定的参数
θ
\theta
θ,通过观察值
y
y
y来寻找是
p
(
y
;
θ
)
p(y;\theta)
p(y;θ)最大化的
θ
\theta
θ值,即:
θ
^
M
L
=
arg max
θ
p
(
y
;
θ
)
\hat \theta_{ML}=\argmax_\theta\ p(y;\theta)\\
θ^ML=θargmax p(y;θ)
这里
p
(
y
;
θ
)
p(y;\theta)
p(y;θ)被定义为似然函数,其实联想一下,假设这个概率模型符合高斯分布,那么求似然函数参数的过程都是围绕 这统计均值和方差的。一般的方法是对
θ
\theta
θ求导,令倒数为
0
0
0,进而求解。也有变换到对数域(对数似然函数)求解,为了便于计算。但【2】中将两者都视为bayesian估计器,他所依据的是公式
f
Θ
∣
Y
(
θ
∣
y
)
⏟
P
o
s
t
e
r
i
o
r
=
1
f
Y
(
y
)
f
Y
∣
Θ
(
y
∣
θ
)
⏟
L
i
k
e
l
i
h
o
o
d
f
Θ
(
θ
)
⏟
P
r
i
o
r
\begin{matrix} \underbrace{ f_{\Theta|Y}(\theta|y) } \\ Posterior \end{matrix}=\frac{1}{f_Y(y)}\begin{matrix} \underbrace{ f_{Y|\Theta}(y|\theta) } \\ Likelihood\end{matrix}\begin{matrix} \underbrace{ f_{\Theta}(\theta) } \\ Prior\end{matrix}
fΘ∣Y(θ∣y)Posterior=fY(y)1
fY∣Θ(y∣θ)Likelihood
fΘ(θ)Prior因为这部专著有很详细的数学推导,所以下文按照这个来,最后可以获得本篇需要的EM算法的推导。
贝叶斯估计
【2】定义的估计方法都是遵循所谓的贝叶斯风险函数最小化而来的,这个函数即为误差函数(损失函数)的数学期望:
R
(
θ
^
)
=
E
[
C
(
θ
^
,
θ
)
]
=
∫
θ
∫
y
C
(
θ
^
,
θ
)
f
Y
,
Θ
(
y
,
θ
)
d
y
d
θ
=
∫
θ
∫
y
C
(
θ
^
,
θ
)
f
Y
∣
Θ
(
y
∣
θ
)
f
Θ
(
θ
)
d
y
d
θ
=
∫
θ
∫
y
C
(
θ
^
,
θ
)
f
Y
∣
Θ
(
y
∣
θ
)
f
Y
(
y
)
d
y
d
θ
\begin{aligned} \mathcal{R}(\hat \theta)&=\boldsymbol{E}[C(\hat \theta, \theta)]\\ &=\int_\theta \int_y C(\hat \theta, \theta) f_{Y,\Theta}(y,\theta) dy\ d\theta\\ &=\int_\theta \int_y C(\hat \theta, \theta) f_{Y|\Theta}(y|\theta) f_\Theta(\theta) dy\ d\theta\\ &=\int_\theta \int_y C(\hat \theta, \theta) f_{Y|\Theta}(y|\theta) f_Y(y) dy\ d\theta \end{aligned}
R(θ^)=E[C(θ^,θ)]=∫θ∫yC(θ^,θ)fY,Θ(y,θ)dy dθ=∫θ∫yC(θ^,θ)fY∣Θ(y∣θ)fΘ(θ)dy dθ=∫θ∫yC(θ^,θ)fY∣Θ(y∣θ)fY(y)dy dθ
如果观测向量
y
y
y已知并且确定,那么关于
y
y
y的概率积分为常数,这里假设为1,则得到条件风险函数
R
(
θ
^
∣
y
)
=
∫
θ
C
(
θ
^
,
θ
)
f
Θ
∣
Y
(
θ
∣
y
)
d
θ
\begin{aligned} \mathcal{R}(\hat \theta|y)&=\int_\theta C(\hat \theta, \theta) f_{\Theta|Y}(\theta|y) d\theta \end{aligned}
R(θ^∣y)=∫θC(θ^,θ)fΘ∣Y(θ∣y)dθ
对于
θ
^
\hat \theta
θ^的估计,即要求得上式最小值的参数估计
θ
^
B
a
y
e
s
i
a
n
=
arg min
θ
^
R
(
θ
^
∣
y
)
=
arg min
θ
^
∫
θ
C
(
θ
^
,
θ
)
f
Θ
∣
Y
(
θ
∣
y
)
d
θ
\hat \theta_{Bayesian}=\argmin_{\hat \theta}\ \mathcal{R}(\hat \theta|y)=\argmin_{\hat \theta}\ \int_\theta C(\hat \theta, \theta) f_{\Theta|Y}(\theta|y)d\theta
θ^Bayesian=θ^argmin R(θ^∣y)=θ^argmin ∫θC(θ^,θ)fΘ∣Y(θ∣y)dθ上面这个是基于后验概率的积分表达。
根据上面
y
y
y的概率积分假设为1的贝叶斯规则,还可以改写成
θ
^
B
a
y
e
s
i
a
n
=
arg min
θ
^
∫
θ
C
(
θ
^
,
θ
)
f
Y
∣
Θ
(
y
∣
θ
)
f
Θ
(
θ
)
d
θ
\hat \theta_{Bayesian}=\argmin_{\hat \theta}\ \int_\theta C(\hat \theta, \theta) f_{Y|\Theta}(y|\theta) f_\Theta(\theta) d\theta
θ^Bayesian=θ^argmin ∫θC(θ^,θ)fY∣Θ(y∣θ)fΘ(θ)dθ这样就得到基于似然概率和先验概率的积分表达。
MAP最大后验概率和ML最大似然估计
从贝叶斯估计的角度,需要设计一个陷波器价值函数,即当
θ
^
=
θ
\hat \theta= \theta
θ^=θ的时候,
C
(
θ
^
,
θ
)
=
m
i
n
C(\hat \theta, \theta) = min
C(θ^,θ)=min,由此利用克罗内克符号
k
r
o
n
e
c
k
e
r
d
e
l
t
a
kronecker delta
kroneckerdelta设计如下价值函数:
C
(
θ
^
,
θ
)
=
1
−
δ
(
θ
^
−
θ
)
C(\hat \theta, \theta) =1-\delta(\hat \theta- \theta)
C(θ^,θ)=1−δ(θ^−θ)将此式带入后验积分
R
(
θ
^
∣
y
)
=
∫
θ
[
1
−
δ
(
θ
^
−
θ
)
]
f
Θ
∣
Y
(
θ
∣
y
)
d
θ
=
1
−
f
Θ
∣
Y
(
θ
∣
y
)
\begin{aligned} \mathcal{R}(\hat \theta|y)&=\int_\theta [1-\delta(\hat \theta- \theta)] f_{\Theta|Y}(\theta|y) d\theta\\ &=1-f_{\Theta|Y}(\theta|y) \end{aligned}
R(θ^∣y)=∫θ[1−δ(θ^−θ)]fΘ∣Y(θ∣y)dθ=1−fΘ∣Y(θ∣y)那么最小化风险函数就变成了最大化后验函数
θ
^
M
a
p
=
arg max
θ
f
Θ
∣
Y
(
θ
∣
y
)
=
arg max
θ
f
Y
∣
Θ
(
y
∣
θ
)
f
Θ
(
θ
)
\begin{aligned} \hat \theta_{Map}&=\argmax_\theta f_{\Theta|Y}(\theta|y)\\ &=\argmax_\theta f_{Y|\Theta}(y|\theta) f_\Theta(\theta) \end{aligned}
θ^Map=θargmaxfΘ∣Y(θ∣y)=θargmaxfY∣Θ(y∣θ)fΘ(θ)如果先验概率
f
Θ
(
θ
)
f_\Theta(\theta)
fΘ(θ)已经获得,并且假设是不变的,那么上式就演变为求解最大似然函数,即ML方法:
θ
^
M
l
=
arg max
θ
f
Y
∣
Θ
(
y
∣
θ
)
\begin{aligned} \hat \theta_{Ml}=\argmax_\theta f_{Y|\Theta}(y|\theta) \end{aligned}
θ^Ml=θargmaxfY∣Θ(y∣θ)通常为了降低概率密度函数的乘除法计算复杂都,采用对数似然求解:
θ
^
M
l
=
arg max
θ
l
o
g
(
f
Y
∣
Θ
(
y
∣
θ
)
)
\begin{aligned} \hat \theta_{Ml}=\argmax_\theta log(f_{Y|\Theta}(y|\theta)) \end{aligned}
θ^Ml=θargmaxlog(fY∣Θ(y∣θ))
EM方法估计GMM的参数
EM方法是在无法给出全部观测数据的情况下估计参数
θ
\theta
θ的方法,通过迭代,发现似然函数
f
X
∣
Θ
(
x
∣
θ
)
f_{X|\Theta}(x|\theta)
fX∣Θ(x∣θ)的期望(Expectation)最大化(Maximisation)的办法,很显然这是上述ML在真实世界中的常用算法。假定观测数据集为
y
y
y,最大化方法就变成了条件概率的数学期望:
E
[
l
n
f
X
∣
Θ
(
x
∣
θ
)
∣
y
]
=
∫
x
f
X
/
Y
,
Θ
(
x
∣
y
,
t
h
e
t
a
)
l
n
f
X
∣
Θ
(
x
∣
θ
)
d
x
E[ln f_{X|\Theta}(x|\theta)|y]=\int_x f_{X/Y,\Theta}(x|y,theta)\ ln f_{X|\Theta}(x|\theta) dx
E[lnfX∣Θ(x∣θ)∣y]=∫xfX/Y,Θ(x∣y,theta) lnfX∣Θ(x∣θ)dx通用的推导太烧脑,所以摘抄【2】利用EM方法估计GMM参数的过程,首先假设不完整数据集合
y
(
m
)
,
m
=
0
,
.
.
.
,
N
−
1
y(m),m=0,...,N-1
y(m),m=0,...,N−1,完整数据
x
(
m
)
=
[
y
(
m
)
,
k
]
=
y
k
(
m
)
,
m
=
0
,
.
.
.
,
N
−
1
,
k
∈
(
1
,
.
.
.
K
)
x(m)=[y(m),k]=y_k(m) ,m=0,...,N-1,k\in(1,...K)
x(m)=[y(m),k]=yk(m),m=0,...,N−1,k∈(1,...K)完整数据集的概率是
y
(
m
)
y(m)
y(m)有一个标签
k
k
k,并且属于混合密度的第k个单元的概率【2】,所以EM方法应用的第一步就是定义一个条件概率期望,这个条件即给定的观察向量和当前估计的参数向量:
U
(
Θ
,
Θ
^
)
=
E
[
l
n
f
Y
,
K
;
Θ
(
y
(
m
)
,
k
;
Θ
)
∣
y
(
m
)
;
Θ
^
]
=
∑
m
=
0
N
−
1
∑
k
=
1
K
f
Y
,
K
;
Θ
(
y
(
m
)
,
k
∣
Θ
)
f
Y
∣
Θ
(
y
(
m
)
∣
Θ
^
)
l
n
f
Y
,
K
;
Θ
(
y
(
m
)
,
k
;
Θ
)
\begin{aligned} U(\Theta,\hat \Theta)&=E[ln f_{Y,K;\Theta}(y(m),k;\Theta)|y(m);\hat \Theta]\\ &=\sum_{m=0}^{N-1}\sum_{k=1}^K\frac{f_{Y,K;\Theta}(y(m),k|\Theta)}{f_{Y|\Theta}(y(m)|\hat \Theta)}\ ln\ f_{Y,K;\Theta}(y(m),k;\Theta) \end{aligned}
U(Θ,Θ^)=E[lnfY,K;Θ(y(m),k;Θ)∣y(m);Θ^]=m=0∑N−1k=1∑KfY∣Θ(y(m)∣Θ^)fY,K;Θ(y(m),k∣Θ) ln fY,K;Θ(y(m),k;Θ)在GMM模型中,混合高斯密度函数可以表示为
f
X
(
x
)
=
∑
k
=
1
K
P
k
N
k
(
x
;
μ
k
,
Σ
k
)
f_X(x)=\sum_{k=1}^KP_k\ \mathcal N_k(x;\mu_{k},\Sigma_k)
fX(x)=k=1∑KPk Nk(x;μk,Σk)
那
么
所
要
估
计
的
参
数
Θ
=
{
θ
=
[
P
k
,
μ
k
,
Σ
k
]
,
k
=
1
,
.
.
.
,
K
}
那么所要估计的参数\Theta=\{\theta=[P_k,\mu_k,\Sigma_k],k=1,...,K\}
那么所要估计的参数Θ={θ=[Pk,μk,Σk],k=1,...,K}。而高斯混合密度模型第k个单元与y(m)在klabel下的联合密度函数可以表示为
f
Y
,
K
∣
Θ
(
y
(
m
)
,
k
∣
θ
^
i
)
=
P
k
f
k
(
y
(
m
)
∣
θ
^
k
)
=
P
k
N
k
(
y
(
m
)
;
μ
^
k
,
Σ
^
k
)
f_{Y,K|\Theta}(y(m),k|\hat \theta_i)=P_k\ f_k(y(m)|\hat \theta_k)=P_k\ \mathcal N_k(y(m);\hat \mu_{k},\hat \Sigma_k)
fY,K∣Θ(y(m),k∣θ^i)=Pk fk(y(m)∣θ^k)=Pk Nk(y(m);μ^k,Σ^k)这里
N
k
(
y
(
m
)
;
μ
k
,
Σ
k
)
=
1
(
2
π
)
P
/
2
∣
Σ
^
∣
1
/
2
e
x
p
{
−
1
2
(
y
(
m
)
−
μ
^
k
)
T
Σ
^
k
−
1
(
y
(
m
)
−
μ
^
k
)
}
\mathcal N_k(y(m);\mu_{k},\Sigma_k)=\frac{1}{(2\pi)^{P/2}|\hat \Sigma|^{1/2}}exp\{-\frac{1}{2}(y(m)-\hat\mu_k)^T\hat\Sigma_k^{-1}(y(m)-\hat\mu_k)\}
Nk(y(m);μk,Σk)=(2π)P/2∣Σ^∣1/21exp{−21(y(m)−μ^k)TΣ^k−1(y(m)−μ^k)}
y
(
m
)
y(m)
y(m)的混合高斯模型
f
Y
∣
θ
(
y
(
m
)
∣
θ
^
i
)
=
N
k
(
y
(
m
)
∣
θ
^
i
)
=
∑
k
=
1
K
P
k
i
N
k
(
y
(
m
)
;
μ
^
k
i
,
Σ
^
k
i
)
f_{Y|\theta}(y(m)|\hat\theta_i)=\mathcal N_k(y(m)|\hat\theta_i)=\sum_{k=1}^KP_{k_i}\ \mathcal N_k(y(m);\hat\mu_{k_i},\hat\Sigma_{k_i})
fY∣θ(y(m)∣θ^i)=Nk(y(m)∣θ^i)=k=1∑KPki Nk(y(m);μ^ki,Σ^ki)带入到条件期望公式
U
(
[
P
,
μ
,
Σ
]
,
[
P
^
i
,
μ
^
i
,
Σ
^
i
]
)
=
∑
m
=
0
N
−
1
∑
k
=
1
K
P
^
k
N
k
(
y
(
m
)
;
μ
^
k
,
Σ
^
k
)
N
k
(
y
(
m
)
∣
Θ
^
i
)
l
n
P
k
N
k
(
y
(
m
)
;
μ
^
k
,
Σ
^
k
)
=
∑
m
=
0
N
−
1
∑
k
=
1
K
(
P
^
k
N
k
(
y
(
m
)
;
μ
^
k
,
Σ
^
k
)
N
k
(
y
(
m
)
∣
Θ
^
i
)
l
n
P
k
+
P
^
k
N
k
(
y
(
m
)
;
μ
^
k
,
Σ
^
k
)
N
k
(
y
(
m
)
∣
Θ
^
i
)
l
n
N
k
(
y
(
m
)
;
μ
^
k
,
Σ
^
k
)
)
\begin{aligned} U([P,\mu,\Sigma],[\hat P_i,\hat\mu_i,\hat\Sigma_i])=\sum_{m=0}^{N-1}\sum_{k=1}^K&\frac{\hat P_k\ \mathcal N_k(y(m);\hat \mu_{k},\hat \Sigma_k)}{\mathcal N_k(y(m)|\hat\Theta_i)}\ ln\ P_k\ \mathcal N_k(y(m);\hat \mu_{k},\hat \Sigma_k)\\=\sum_{m=0}^{N-1}\sum_{k=1}^K&\big(\frac{\hat P_k\ \mathcal N_k(y(m);\hat \mu_{k},\hat \Sigma_k)}{\mathcal N_k(y(m)|\hat\Theta_i)}\ ln\ P_k\\&\ +\frac{\hat P_k\ \mathcal N_k(y(m);\hat \mu_{k},\hat \Sigma_k)}{\mathcal N_k(y(m)|\hat\Theta_i)}\ ln\ \mathcal N_k(y(m);\hat \mu_{k},\hat \Sigma_k)\big) \end{aligned}
U([P,μ,Σ],[P^i,μ^i,Σ^i])=m=0∑N−1k=1∑K=m=0∑N−1k=1∑KNk(y(m)∣Θ^i)P^k Nk(y(m);μ^k,Σ^k) ln Pk Nk(y(m);μ^k,Σ^k)(Nk(y(m)∣Θ^i)P^k Nk(y(m);μ^k,Σ^k) ln Pk +Nk(y(m)∣Θ^i)P^k Nk(y(m);μ^k,Σ^k) ln Nk(y(m);μ^k,Σ^k))
再次基础上对三类参数求偏导等于0的算式,得出估计算式
P
^
k
i
+
1
=
arg max
P
k
U
(
[
P
,
μ
,
Σ
]
,
[
P
^
i
,
μ
^
i
,
Σ
^
i
]
)
=
1
N
∑
m
=
0
N
−
1
P
^
k
i
N
k
(
y
(
m
)
;
μ
^
k
i
,
Σ
^
k
i
)
N
(
y
(
m
)
∣
Θ
^
i
)
μ
^
k
i
+
1
=
arg max
μ
k
U
(
[
P
,
μ
,
Σ
]
,
[
P
^
i
,
μ
^
i
,
Σ
^
i
]
)
=
∑
m
=
0
N
−
1
P
^
k
i
N
k
(
y
(
m
)
;
μ
^
k
i
,
Σ
^
k
i
)
N
(
y
(
m
)
∣
Θ
^
i
)
y
(
m
)
∑
m
=
0
N
−
1
P
^
k
i
N
k
(
y
(
m
)
;
μ
^
k
i
,
Σ
^
k
i
)
N
(
y
(
m
)
∣
Θ
^
i
)
Σ
^
k
i
+
1
=
arg max
Σ
k
U
(
[
P
,
μ
,
Σ
]
,
[
P
^
i
,
μ
^
i
,
Σ
^
i
]
)
=
∑
m
=
0
N
−
1
P
^
k
i
N
k
(
y
(
m
)
;
μ
^
k
i
,
Σ
^
k
i
)
N
(
y
(
m
)
∣
Θ
^
i
)
(
y
(
m
)
−
μ
^
k
i
)
(
y
(
m
)
−
μ
^
k
i
)
T
∑
m
=
0
N
−
1
P
^
k
i
N
k
(
y
(
m
)
;
μ
^
k
i
,
Σ
^
k
i
)
N
(
y
(
m
)
∣
Θ
^
i
)
\begin{aligned} \hat P_{k_{i+1}}&=\argmax_{P_k}U([P,\mu,\Sigma],[\hat P_i,\hat\mu_i,\hat\Sigma_i])\\ &=\frac{1}{N}\sum_{m=0}^{N-1}\frac{\hat P_{k_i}\ \mathcal N_k(y(m);\hat \mu_{k_i},\hat \Sigma_{k_i})}{\mathcal N(y(m)|\hat\Theta_{i})}\\ \hat \mu_{k_{i+1}}&=\argmax_{\mu_k}U([P,\mu,\Sigma],[\hat P_i,\hat\mu_i,\hat\Sigma_i])\\ &=\frac{\sum_{m=0}^{N-1}\frac{\hat P_{k_i}\ \mathcal N_k(y(m);\hat \mu_{k_i},\hat \Sigma_{k_i})}{\mathcal N(y(m)|\hat\Theta_{i})}y(m)}{\sum_{m=0}^{N-1}\frac{\hat P_{k_i}\ \mathcal N_k(y(m);\hat \mu_{k_i},\hat \Sigma_{k_i})}{\mathcal N(y(m)|\hat\Theta_{i})}}\\ \hat \Sigma_{k_{i+1}}&=\argmax_{\Sigma_k}U([P,\mu,\Sigma],[\hat P_i,\hat\mu_i,\hat\Sigma_i])\\ &=\frac{\sum_{m=0}^{N-1}\frac{\hat P_{k_i}\ \mathcal N_k(y(m);\hat \mu_{k_i},\hat \Sigma_{k_i})}{\mathcal N(y(m)|\hat\Theta_{i})}(y(m)-\hat \mu_{k_i})(y(m)-\hat \mu_{k_i})^T}{\sum_{m=0}^{N-1}\frac{\hat P_{k_i}\ \mathcal N_k(y(m);\hat \mu_{k_i},\hat \Sigma_{k_i})}{\mathcal N(y(m)|\hat\Theta_{i})}}\\ \end{aligned}
P^ki+1μ^ki+1Σ^ki+1=PkargmaxU([P,μ,Σ],[P^i,μ^i,Σ^i])=N1m=0∑N−1N(y(m)∣Θ^i)P^ki Nk(y(m);μ^ki,Σ^ki)=μkargmaxU([P,μ,Σ],[P^i,μ^i,Σ^i])=∑m=0N−1N(y(m)∣Θ^i)P^ki Nk(y(m);μ^ki,Σ^ki)∑m=0N−1N(y(m)∣Θ^i)P^ki Nk(y(m);μ^ki,Σ^ki)y(m)=ΣkargmaxU([P,μ,Σ],[P^i,μ^i,Σ^i])=∑m=0N−1N(y(m)∣Θ^i)P^ki Nk(y(m);μ^ki,Σ^ki)∑m=0N−1N(y(m)∣Θ^i)P^ki Nk(y(m);μ^ki,Σ^ki)(y(m)−μ^ki)(y(m)−μ^ki)T上述公式细节太烧脑,不深挖了。
对数功率谱域的降噪范式
【3】中提到了如下公式
l
n
∣
Y
(
f
k
)
∣
2
=
l
n
∣
X
(
f
k
)
∣
2
+
l
n
∣
H
(
f
k
)
∣
2
+
l
n
(
1
+
e
x
p
(
∣
N
(
f
k
)
∣
2
−
l
n
∣
X
(
f
k
)
∣
2
−
l
n
∣
H
(
f
k
)
∣
2
)
)
ln|Y(f_k)|^2=ln|X(f_k)|^2+ln|H(f_k)|^2+ln(1+exp(|N(f_k)|^2-ln|X(f_k)|^2-ln|H(f_k)|^2))
ln∣Y(fk)∣2=ln∣X(fk)∣2+ln∣H(fk)∣2+ln(1+exp(∣N(fk)∣2−ln∣X(fk)∣2−ln∣H(fk)∣2))基于此算式,很多学者提出了各种噪声鲁棒性算法,语者自适应算法等等。
参考文档
1.语音增强理论与实践, (美)罗爱洲, (译)高毅等
2.Advanced Digital Signal Processing and Noise Reduction, Saeed V. Vaseghi
3.泰勒级数在语音增强中的应用