W E E K 1 {\Large WEEK \qquad 1} WEEK1
1.1 1维高斯分布
1.1.1 为什么学习高斯分布?
∙
\qquad \bullet
∙两个参数(期望和方差)易于运算和解释说明
∙
\qquad \bullet
∙良好的数学属性(例如:高斯分布的乘积仍是高斯分布)
∙
\qquad \bullet
∙由中心极限定理,任何随机变量样本均值的期望收敛于高斯分布
因此,高斯分布是为噪声和不确定性建模的合适选择。
\qquad
高斯分布的形式为:
p
(
x
)
=
1
2
π
σ
e
−
(
x
−
μ
)
2
2
σ
2
(
1
)
p(x)= \frac{1}{\sqrt{2\pi}{\sigma}^{}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\qquad(1)
p(x)=2πσ1e−2σ2(x−μ)2(1)
1.1.2 最大似然估计计算1维高斯参数
\qquad
使用给定的观测数据估计期望和方差,似然函数方程如下图所示:
p
(
{
x
i
}
∣
μ
,
σ
)
(
2
)
p(\{x_{i}\}| \mu,\sigma) \qquad(2)
p({xi}∣μ,σ)(2)其中,
x
i
{x_{i}}
xi为观测数据,
μ
,
σ
\mu,\sigma
μ,σ为未知参数。参数计算方程如下图所示:
μ
^
,
σ
^
=
a
r
g
m
a
x
μ
,
σ
p
(
x
i
∣
μ
,
σ
)
(
3
)
\hat{\mu},\hat{\sigma}=arg \mathop{max}\limits_{\mu,\sigma}p({x_{i}|\mu,\sigma})\qquad(3)
μ^,σ^=argμ,σmaxp(xi∣μ,σ)(3)
\qquad
参数估计值为当似然函数取到最大值时对应的参数值。假设各估计值相互独立则:
p
(
{
x
i
}
∣
μ
,
σ
)
=
∏
i
=
1
N
p
(
x
i
∣
μ
,
σ
)
(
4
)
p(\{x_{i}\}| \mu,\sigma)= \prod_{i=1}^N p({x_{i}}| \mu,\sigma)\qquad(4)
p({xi}∣μ,σ)=i=1∏Np(xi∣μ,σ)(4)高斯分布的参数估计具有解析解,其计算步骤为:
\qquad
首先对极大似然函数取对数形式,对数函数是单调递增则:
a
r
g
m
a
x
μ
,
σ
∏
i
=
1
N
p
(
x
i
∣
μ
,
σ
)
=
a
r
g
m
a
x
μ
,
σ
ln
∏
i
=
1
N
p
(
x
i
∣
μ
,
σ
)
(
5
)
arg \mathop{max}\limits_{\mu,\sigma}\prod_{i=1}^N p({x_{i}}| \mu,\sigma)=arg \mathop{max}\limits_{\mu,\sigma}\ln\prod_{i=1}^N p({x_{i}}| \mu,\sigma)\qquad(5)
argμ,σmaxi=1∏Np(xi∣μ,σ)=argμ,σmaxlni=1∏Np(xi∣μ,σ)(5)由对数函数性质:
a
r
g
m
a
x
μ
,
σ
ln
∏
i
=
1
N
p
(
x
i
∣
μ
,
σ
)
=
a
r
g
m
a
x
μ
,
σ
∑
i
=
1
N
ln
p
(
x
i
∣
μ
,
σ
)
(
6
)
arg \mathop{max}\limits_{\mu,\sigma}\ln\prod_{i=1}^N p({x_{i}}| \mu,\sigma)=arg \mathop{max}\limits_{\mu,\sigma}\sum_{i=1}^N \ln p({x_{i}}| \mu,\sigma)\qquad(6)
argμ,σmaxlni=1∏Np(xi∣μ,σ)=argμ,σmaxi=1∑Nlnp(xi∣μ,σ)(6)运算后得:
μ
^
,
σ
^
=
a
r
g
m
a
x
μ
,
σ
∑
i
=
1
N
{
−
(
x
i
−
μ
)
2
2
σ
2
−
ln
σ
−
ln
2
π
}
(
7
)
\hat{\mu},\hat{\sigma}=arg \mathop{max}\limits_{\mu,\sigma}\sum_{i=1}^N \left\{ -\frac{(x_{i}-\mu)^2}{2\sigma^2}-\ln\sigma-\ln\sqrt{2\pi} \right\}\qquad(7)
μ^,σ^=argμ,σmaxi=1∑N{−2σ2(xi−μ)2−lnσ−ln2π}(7)忽略常数项并转化为最小值问题,记为
J
(
μ
,
σ
)
J(\mu,\sigma)
J(μ,σ)
J
(
μ
,
σ
)
=
μ
^
,
σ
^
=
a
r
g
m
i
n
μ
,
σ
∑
i
=
1
N
{
(
x
i
−
μ
)
2
2
σ
2
+
ln
σ
}
(
8
)
J(\mu,\sigma)=\hat{\mu},\hat{\sigma}=arg \mathop{min}\limits_{\mu,\sigma}\sum_{i=1}^N \left\{ \frac{(x_{i}-\mu)^2}{2\sigma^2}+\ln\sigma \right\}\qquad(8)
J(μ,σ)=μ^,σ^=argμ,σmini=1∑N{2σ2(xi−μ)2+lnσ}(8)利用凸优化判据
μ
和
σ
看
作
自
变
量
,
对
应
代
价
函
数
的
最
小
值
\color{#F00}{\mu和\sigma看作自变量,对应代价函数的最小值}
μ和σ看作自变量,对应代价函数的最小值
∂
J
∂
μ
=
0
,
∂
J
∂
σ
=
0
(
9
)
\frac{\partial J}{\partial \mu}=0,\frac{\partial J}{\partial \sigma}=0\qquad(9)
∂μ∂J=0,∂σ∂J=0(9)由上式求出
μ
^
=
1
N
∑
i
=
1
N
x
i
(
10
)
σ
^
2
=
1
N
∑
i
=
1
N
(
x
i
−
μ
^
)
2
(
11
)
\hat{\mu}=\frac{1}{N}\sum_{i=1}^{N}x_{i}\qquad(10)\\ \hat{\sigma}^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\hat{\mu})^{2} \qquad(11)
μ^=N1i=1∑Nxi(10)σ^2=N1i=1∑N(xi−μ^)2(11)
μ
^
\hat{\mu}
μ^为样本均值,
σ
^
\hat{\sigma}
σ^为样本方差。
1.2 多维高斯分布
1.2.1 多维高斯分布数学表达式
p ( x ) = 1 ( 2 π ) D / 2 ∣ ∑ ∣ 1 / 2 e x p { − 1 2 ( x − μ ) T ∑ − 1 ( x − μ ) } ( 12 ) p(x)=\frac{1}{(2\pi)^{D/2}{|\sum|}^{1/2}}exp\left\{-\frac{1}{2}(x-\mu)^{T}\begin{matrix}\sum^{-1}(x-\mu) \end{matrix}\right\}\qquad(12) p(x)=(2π)D/2∣∑∣1/21exp{−21(x−μ)T∑−1(x−μ)}(12)其中D为变量维数,x为变量向量, μ \mu μ为期望向量, ∑ \sum ∑为方差矩阵, ∣ ∑ ∣ |\sum| ∣∑∣为方差矩阵行列式。协方差矩阵是对称矩阵其中对角线上为方差,非对角线为变量相关性。
1.2.2 多维高斯分布参数求解
\qquad
方法与上述一维求解方法相同,参数求解为:
μ
^
=
1
N
∑
i
=
1
N
x
i
(
13
)
σ
^
2
=
1
N
∑
i
=
1
N
(
x
i
−
μ
^
)
(
x
i
−
μ
^
)
T
(
14
)
\hat{\mu}=\frac{1}{N}\sum_{i=1}^{N}x_{i}\qquad(13)\\ \hat{\sigma}^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\hat{\mu})(x_{i}-\hat{\mu})^{T}\qquad(14)
μ^=N1i=1∑Nxi(13)σ^2=N1i=1∑N(xi−μ^)(xi−μ^)T(14)
1.3 混合高斯模型
\qquad
混合高斯模型可以看作不同参数的高斯模型的加权求和,表达式如下:
p
(
x
)
=
∑
k
=
1
K
w
k
g
k
(
x
∣
μ
k
,
∑
k
)
(
15
)
p(x)=\sum_{k=1}^{K}w_{k}g_{k}(x|\mu_{k},\begin{matrix}\sum_{k} \end{matrix}) \qquad(15)
p(x)=k=1∑Kwkgk(x∣μk,∑k)(15)
g
k
g_{k}
gk是期望为
μ
k
\mu_{k}
μk,方差为
∑
k
\begin{matrix}\sum_{k} \end{matrix}
∑k的高斯模型。
w
k
w_{k}
wk为加权值,
w
k
w_{k}
wk>0,
∑
k
=
1
K
w
k
=
1
\sum_{k=1}^{K}w_{k}=1
∑k=1Kwk=1(保证混合高斯模型的密度函数积分为1)。理论上可以表示任意形状的高斯分布,但相较于单纯高斯分布其具有更多的参数,求解参数变得困难,混合高斯分布不能求出解析解,犯错的概率增大。
1.3.1 求解混合高斯参数及其权重(EM算法)
\qquad
与1维高斯参数求解方法相同,列出最大似然函数化简可得:
μ
^
,
σ
^
=
a
r
g
m
a
x
μ
,
σ
∑
i
=
1
N
ln
{
w
k
∑
k
=
1
K
g
k
(
x
i
∣
μ
k
,
∑
k
)
}
(
16
)
\hat{\mu},\hat{\sigma}=arg \mathop{max}\limits_{\mu,\sigma}\sum_{i=1}^N \ln \left\{w_{k}\sum_{k=1}^Kg_{k}(x_{i}|\mu_{k},\begin{matrix}\sum_{k} \end{matrix})\right\}\qquad(16)
μ^,σ^=argμ,σmaxi=1∑Nln{wkk=1∑Kgk(xi∣μk,∑k)}(16)由方程可以看出不能解析化简该方程即不能求出解析解(是指通过严格的公式所求得的解。即包含分式、三角函数、指数、对数甚至无限级数等基本函数的解的形式。给出解的具体函数形式,从解的表达式中就可以算出任何对应值。)。本例给定
w
k
w_{k}
wk。
\qquad
其求解过程类似许多的非凸问题,具有许多次优解称为局部最小值。
g
k
(
x
)
=
1
(
2
π
)
D
/
2
∣
∑
k
∣
1
/
2
e
x
p
{
−
1
2
(
x
−
μ
k
)
T
∑
k
−
1
(
x
−
μ
k
)
}
(
17
)
g_{k}(x)=\frac{1}{(2\pi)^{D/2}{|\begin{matrix}\sum_k\end{matrix}|}^{1/2}}exp\left\{-\frac{1}{2}(x-\mu_{k})^{T}\begin{matrix}\sum_{k}^{-1}(x-\mu_{k}) \end{matrix}\right\}\qquad(17)
gk(x)=(2π)D/2∣∑k∣1/21exp{−21(x−μk)T∑k−1(x−μk)}(17)
EM算法步骤:
\qquad
1.设置期望
μ
\mu
μ和方差
σ
\sigma
σ的初始值。
\qquad
2.设置第k个高斯模型的第i个数据点的潜变量为 (E-step):
z
k
i
=
g
k
(
x
i
∣
μ
k
,
∑
k
)
∑
k
=
1
K
g
k
(
x
i
∣
μ
k
,
∑
k
)
(
18
)
z_{k}^{i}=\frac{g_{k}(x_i|\mu_{k},\begin{matrix}\sum_{k} \end{matrix})}{\begin{matrix}\sum_{k=1}^{K}g_{k}(x_{i}|\mu_{k},\begin{matrix}\sum_{k} \end{matrix}\end{matrix})}\qquad(18)
zki=∑k=1Kgk(xi∣μk,∑k)gk(xi∣μk,∑k)(18)
z
k
i
z_{k}^{i}
zki可以看作数据i是由第k个高斯模型生成的概率。
\qquad
3.参数估计值为 (M-step) :
μ
^
k
=
1
z
k
∑
i
=
1
N
z
k
i
x
i
(
19
)
∑
^
k
=
1
z
k
∑
i
=
1
N
z
k
i
(
x
i
−
μ
^
k
)
(
x
i
−
μ
^
k
)
T
(
20
)
z
k
=
∑
i
=
1
N
z
k
i
(
21
)
\hat{\mu}_{k}=\frac{1}{z_{k}}\sum_{i=1}^{N}z_{k}^{i}x_{i}\qquad(19)\\ \begin{matrix}\hat{\sum}_{k}\end{matrix}=\frac{1}{z_{k}}\sum_{i=1}^{N}z_{k}^{i}(x_{i}-\hat \mu_{k})(x_{i}-\hat \mu_{k})^{T} \qquad(20)\\ z_{k}=\begin{matrix}{\sum}_{i=1}^{N}z_{k}^{i}\end{matrix}\qquad(21)
μ^k=zk1i=1∑Nzkixi(19)∑^k=zk1i=1∑Nzki(xi−μ^k)(xi−μ^k)T(20)zk=∑i=1Nzki(21)
\qquad
4. 循环步骤2和步骤3,直到
μ
^
k
\hat{\mu}_{k}
μ^k,
∑
^
k
\begin{matrix}\hat{\sum}_{k}\end{matrix}
∑^k变化很小即收敛到局部最优值上。
1.3.2 EM算法的一般化应用
\qquad
EM算法看作是对目标函数下界的最大化过程。函数表达式为:
a
r
g
m
a
x
θ
∑
i
ln
p
(
x
i
∣
θ
)
θ
:
所
有
参
数
(
22
)
arg \mathop{max}\limits_{\theta}\sum_{i} \ln p(x_i|\theta) \qquad \theta:所有参数\qquad(22)
argθmaxi∑lnp(xi∣θ)θ:所有参数(22)所求就是下文中的G
\qquad
EM算法的先验知识
∙
\bullet
∙Jensen’s不等式:设f(x)是凸函数得
f
(
∑
a
i
x
i
)
≤
∑
a
i
f
(
x
i
)
(
∑
a
i
=
1
,
a
i
≥
0
)
(
23
)
f(\sum a_ix_i)\leq \sum a_if(x_i)\qquad(\sum a_i=1,a_i\ge0)\qquad(23)
f(∑aixi)≤∑aif(xi)(∑ai=1,ai≥0)(23)
\qquad
由处理的函数为对数函数,对数函数是凹函数得
l
n
(
∑
a
i
p
i
)
≥
∑
a
i
l
n
p
i
(
∑
a
i
=
1
,
a
i
≥
0
)
(
24
)
ln(\sum a_ip_i)\ge\sum a_ilnp_i\qquad(\sum a_i=1,a_i\ge0)\qquad(24)
ln(∑aipi)≥∑ailnpi(∑ai=1,ai≥0)(24)因此,可以使用Jensen不等式来作为一个下界。
∙
\bullet
∙引入潜变量z
p
(
X
∣
θ
)
=
∑
Z
p
(
X
,
Z
∣
θ
)
(
25
)
p(X|\theta)=\sum_Z p(X,Z|\theta)\qquad(25)
p(X∣θ)=Z∑p(X,Z∣θ)(25)潜变量z不能确切知道,对隐变量取边缘概率。
\qquad
获取如上所示的下界
l
n
p
(
X
∣
θ
)
=
l
n
∑
Z
p
(
X
,
Z
∣
θ
)
(
似
然
函
数
)
=
l
n
∑
Z
q
(
Z
)
p
(
X
,
Z
∣
θ
)
q
(
Z
)
≥
∑
Z
q
(
Z
)
l
n
p
(
X
,
Z
∣
θ
)
q
(
Z
)
(
下
界
)
(
26
)
ln\ p(X|\theta)=ln\sum_{Z}p(X,Z|\theta)\quad(似然函数)\\=ln\sum_{Z}q(Z)\frac{p(X,Z|\theta)}{q(Z)}\ge\sum_{Z}q(Z)ln\frac{p(X,Z|\theta)}{q(Z)}\quad(下界)\qquad(26)
ln p(X∣θ)=lnZ∑p(X,Z∣θ)(似然函数)=lnZ∑q(Z)q(Z)p(X,Z∣θ)≥Z∑q(Z)lnq(Z)p(X,Z∣θ)(下界)(26)
q
(
Z
)
q(Z)
q(Z)是由
θ
\theta
θ确定的,是关于
Z
Z
Z的概率分布密度函数。
∙
\bullet
∙EM步骤:
\qquad
(1)由上式:
(
F
)
l
n
p
(
X
∣
θ
)
≥
∑
Z
q
(
Z
)
l
n
p
(
X
,
Z
∣
θ
)
q
(
Z
)
(
G
)
(
27
)
(F)ln\ p(X|\theta)\ge\sum_{Z}q(Z)ln\frac{p(X,Z|\theta)}{q(Z)}(G)\qquad(27)
(F)ln p(X∣θ)≥Z∑q(Z)lnq(Z)p(X,Z∣θ)(G)(27)
\qquad
给定初始
θ
0
\theta_{0}
θ0同时给定下界G,使
G
(
θ
∣
θ
0
)
G(\theta|\theta_{0})
G(θ∣θ0)与
F
(
θ
)
F(\theta)
F(θ)具有局部相似性。
\qquad
(2)由求参数的最大似然估计,由给定的G求出更好的参数
θ
1
\theta_{1}
θ1,由
θ
1
\theta_{1}
θ1重新确定下界G,返回步骤1。
\qquad
直到参数收敛到一个局部最优值,求出对应
θ
\theta
θ。