机器学习/数据挖掘-----EM算法推论和相关数学知识

1. EM 算法推论和相关数学知识

1.1. Describe

EM(Expectation-Maxmization)算法是一个迭代算法
主要应用的理论是极大似然估计
对于贝叶斯算法来说,训练的样本必须是完整的,属性值如果缺失会对结果有较大的影响。EM算法对于缺失属性的数据集有较好的表现。

期望最大化(EM)算法是一种被广泛用于极大似然(ML)估计的迭代性型计算方法。处理大量数据不完整问题非常有用。

Advantages:

- 数值计算的稳定
- 实现简单
- 可靠全局收敛

1.2. Theory

1.2.1. 先验概率&后验概率

接下来把c记成 Θ c , Θ c \Theta_c,\Theta_c Θc,Θc是c的一组条件。

  1. 结果还没有发生,我们通过一些经验等猜测某个结果可能发生的概率。先验(通过历史原因求)

Θ c \Theta_c Θc类别的概率。

P ( Θ c ) P(\Theta_c) PΘc

  1. 结果已经发生,根据结果估计发生的原因的概率。后验(通过结果求原因)

P ( Θ c ∣ x ) P(\Theta_c | x) P(Θcx)

Θ c 代 表 原 因 , x 代 表 结 果 。 在 已 知 结 果 求 各 种 原 因 的 概 率 \Theta_c代表原因,x代表结果。在已知结果求各种原因的概率 Θcx
对于机器学习, Θ \Theta Θ代表

1.2.2. 极大似然估计/条件概率 (通过原因求结果)

Maximum Likelihood Estimation ,简称MLE,是一种根据采用来估计概率分布参数的方法。

先定下来原因,然后根据原因求结果。
如果是 Θ \Theta Θ类别里的(结果),求x的概率。

P ( x ∣ Θ ) P(x|\Theta ) P(xΘ)

1.2.3. Jensen不等式

优化理论中的函数凹凸性和高数中是相反的,

如果 f ′ ′ ( x ) ≥ 0 f''(x) \geq0 f(x)0是,是凸函数
如果 f ′ ′ ( x ) ≤ 0 f''(x) \leq0 f(x)0是,是凹函数

凸 函 数 : E [ f ( X ) ] ≥ f ( E X ) 凸函数:E[f(X)] \geq f(EX) E[f(X)]f(EX)

凹 函 数 : E [ f ( X ) ] ≤ f ( E X ) 凹函数:E[f(X)] \leq f(EX) E[f(X)]f(EX)

图片来源

以凹函数为例,开口向上。如果概率为0.5的二项分布,E[f(x)]相当于是对纵轴两个值加和除以2,一定大于对应的f(x)取值。简单理解:[f(a)+f(b)]/2 >= f((a+b)/2)

1.2.4. 联合概率密度&边缘概率密度

联合概率分布
二维离散随机变量(X,Y)可能取值为(Xi,Yj)(i,j=1,2,…)

P { X = x i , Y = y j } = p i , j , i , j = 1 , 2.... P\{ X=x_i,Y=y_j\}=p_{i,j}, \quad i,j=1,2.... P{X=xi,Y=yj}=pi,j,i,j=1,2....
成为随机变量(X,Y)的概率分布(联合概率分布)

连续型:
F ( x , y ) = ∫ − ∞ x ∫ − ∞ y f ( u , v ) d u d v − ∞ < x , y < + ∞ F(x,y)=\int_{-\infty}^{x}\int_{-\infty}^{y}f(u,v)dudv\quad -\infty < x,y <+\infty F(x,y)=xyf(u,v)dudv<x,y<+

边缘概率分布
p i   ⋅ = P { X = x i } , i = 1 , 2.... p_{i \ ·}=P\{X=x_i\} ,i=1,2.... pi =P{X=xi},i=1,2....称为(X,Y)关于X的边缘概率分布。

显然 p i   ⋅ = P { X = x i } = ∑ j = 1 + ∞ P { X = x i , Y = y j } = ∑ j = 1 + ∞ p i j , i = 1 , 2... p_{i \ ·}=P\{X=x_i\}=\sum_{j=1}^{+\infty}P\{X=x_i,Y=y_j\}=\sum_{j=1}^{+\infty}p_{ij} ,\quad i=1,2... pi =P{X=xi}=j=1+P{X=xi,Y=yj}=j=1+pij,i=1,2...

连续型:
对一个进行积分。

1.2.5. 数学期望相关

数学期望:
E ( X ) = ∑ k = 1 + ∞ x k p k E(X)=\sum_{k=1}^{+\infty}x_k p_k E(X)=k=1+xkpk
E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X)=\int_{-\infty}^{+\infty}xf(x)dx E(X)=+xf(x)dx

随机变量X的函数Y=g(X)的数学期望

  • 离散型
    E ( Y ) = E [ g ( x ) ] = ∑ i g ( x i ) p ( x i ) E(Y)=E[g(x)]=\sum_i g(x_i)p(x_i) E(Y)=E[g(x)]=ig(xi)p(xi)

  • 连续型
    E ( Y ) = E [ g ( x ) ] = ∫ − ∞ + ∞ g ( x ) p ( x ) E(Y)=E[g(x)]=\int_{-\infty}^{+\infty}g(x)p(x) E(Y)=E[g(x)]=+g(x)p(x)

1.2.6. 推导过程

参考来源

Begin
X = { x i } X=\{x_i\} X={xi}完整数据, Z = ( z i ) Z=(z_i) Z=(zi)隐数据 Y = ( X , Z ) , Y = { ( x 1 , z 1 ) . . . . } Y=(X,Z),Y=\{(x_1,z_1)....\} Y=(X,Z)Y={(x1,z1)....}

  1. 根据边缘概率分布,
    l o g L ( θ ) = ∑ i l n ( x i ; θ ) = ∑ i l n ∑ z p ( x i , z i ; θ ) ( 1 ) logL(\theta)=\sum_iln(x_i;\theta)=\sum_i ln \sum_{z}p(x_i,z_i;\theta) \quad (1) logL(θ)=iln(xi;θ)=ilnzp(xi,zi;θ)(1)

离散型边缘概率密度等于另一个维度累加。
上文提到的 p i   ⋅ = P { X = x i } = ∑ j = 1 + ∞ P { X = x i , Y = y j } = ∑ j = 1 + ∞ p i j , i = 1 , 2... p_{i \ ·}=P\{X=x_i\}=\sum_{j=1}^{+\infty}P\{X=x_i,Y=y_j\}=\sum_{j=1}^{+\infty}p_{ij} ,\quad i=1,2... pi =P{X=xi}=j=1+P{X=xi,Y=yj}=j=1+pij,i=1,2...

  1. 假定Z服从分布Qi

Q i Q_i Qi是Z的某种分布,满足 ∑ Z Q i ( z i ) = 1 Q i ( z ) ≥ 0 \sum_ZQ_i(z_i)=1 \quad Q_i(z)\geq0 ZQi(zi)=1Qi(z)0
(1)经过变换得到(2)
= ∑ i l n ∑ z Q i ( z i ) p ( x i , z i ; θ ) Q i ( z i ) ( 2 ) =\sum_iln\sum_zQ_i(z_i)\frac{p(x_i,z_i;\theta)}{Q_i(z_i)} \quad (2) =ilnzQi(zi)Qi(zi)p(xi,zi;θ)(2)

  1. 根据jensen不等式和数学期望
    E ( Y ) = E [ g ( x ) ] = ∑ i g ( x i ) p ( x i ) E(Y)=E[g(x)]=\sum_i g(x_i)p(x_i) E(Y)=E[g(x)]=ig(xi)p(xi)
    令: g ( x i ) = p ( x i , z i ; θ ) Q i ( z i ) g(x_i)=\frac{p(x_i,z_i;\theta)}{Q_i(z_i)} g(xi)=Qi(zi)p(xi,zi;θ)
    p ( x i ) = Q i ( z i ) p(x_i)=Q_i(z_i) p(xi)=Qi(zi) 注意这里是z的概率,也就是对z的函数求期望。

则(2)式中 ∑ z Q i ( z i ) p ( x i , z i ; θ ) Q i ( z i ) \sum_zQ_i(z_i)\frac{p(x_i,z_i;\theta)}{Q_i(z_i)} zQi(zi)Qi(zi)p(xi,zi;θ)代表是 p ( x i , z i ; θ ) Q i ( z i ) \frac{p(x_i,z_i;\theta)}{Q_i(z_i)} Qi(zi)p(xi,zi;θ)的数学期望。也就是

( 2 ) = ∑ i l n ( E [ p ( x i , z i ; θ ) Q i ( z i ) ] ) ( 3 ) (2)=\sum_iln(E[\frac{p(x_i,z_i;\theta)}{Q_i(z_i)}]) \quad (3) \quad (2)=iln(E[Qi(zi)p(xi,zi;θ)])(3)

  1. 根据Jensen不等式,ln函数为凹函数(优化理论中的凹函数,和高数中相反。这里的凹凸性概念有混淆。)
    凹 函 数 : E [ f ( X ) ] ≤ f ( E X ) 凹函数:E[f(X)] \leq f(EX) E[f(X)]f(EX)
    可得:
    ∑ i l n ( E [ p ( x i , z i ; θ ) Q i ( z i ) ] ) ≥ ∑ i E [ l n p ( x i , z i ; θ ) Q i ( z i ) ] \sum_iln(E[\frac{p(x_i,z_i;\theta)}{Q_i(z_i)}]) \geq \sum_i E[ln\frac{p(x_i,z_i;\theta)}{Q_i(z_i)}] iln(E[Qi(zi)p(xi,zi;θ)])iE[lnQi(zi)p(xi,zi;θ)]

把E提出来了。确定了下界线

  1. 把E展开。是对z的函数求期望。

由公式 E ( Y ) = E [ g ( x ) ] = ∑ i g ( x i ) p ( x i ) E(Y)=E[g(x)]=\sum_i g(x_i)p(x_i) E(Y)=E[g(x)]=ig(xi)p(xi)
∑ i E [ l n p ( x i , z i ; θ ) Q i ( z i ) ] = ∑ i ∑ z Q i ( z ) l n p ( x i , z i ; θ ) Q i ( z i ) ] ( 4 ) \sum_i E[ln\frac{p(x_i,z_i;\theta)}{Q_i(z_i)}]=\sum_i\sum_zQ_i(z)ln\frac{p(x_i,z_i;\theta)}{Q_i(z_i)}] \quad (4) iE[lnQi(zi)p(xi,zi;θ)]=izQi(z)lnQi(zi)p(xi,zi;θ)](4)

  1. 可得 l o g L ( θ ) ≥ ( 4 ) logL(\theta) \geq (4) logL(θ)(4)

l o g L ( θ ) ≥ ∑ i ∑ z Q i ( z ) l n p ( x i , z i ; θ ) Q i ( z i ) ( 5 ) logL(\theta) \geq\sum_i\sum_zQ_i(z)ln\frac{p(x_i,z_i;\theta)}{Q_i(z_i)} \quad (5) logL(θ)izQi(z)lnQi(zi)p(xi,zi;θ)(5)

在这里插入图片描述

  1. (5)式等号成立的条件:
    固定 θ \theta θ,选择Q的可能分布,等号成立时达到了 L ( θ ) L(\theta) L(θ)的下界。Jensen不等式等号成立的条件是X为常亮。也就是 p ( x i , z i ; θ ) Q i ( z i ) = C ( 6 ) \frac{p(x_i,z_i;\theta)}{Q_i(z_i)}=C \quad (6) Qi(zi)p(xi,zi;θ)=C(6)
    ⇒ p ( x i , z i ; θ ) = C ( Q i ( z i ) ) \Rightarrow p(x_i,z_i;\theta)=C(Q_i(z_i)) p(xi,zi;θ)=C(Qi(zi))
    ⇒ ∑ z p ( x i , z i ; θ ) = C ( ∑ z Q i ( z i ) ) \Rightarrow \sum_z p(x_i,z_i;\theta)=C(\sum_z Q_i(z_i)) zp(xi,zi;θ)=C(zQi(zi))
    由于Qi是z的分布率,故累加和为1,可得:
    ∑ z p ( x i , z i ; θ ) = C ( 7 ) \sum_z p(x_i,z_i;\theta)=C \quad (7) zp(xi,zi;θ)=C(7)
    (6)=(7)可得:
    p ( x i , z i ; θ ) Q i ( z i ) = ∑ z p ( x i , z i ; θ ) = C \frac{p(x_i,z_i;\theta)}{Q_i(z_i)}=\sum_z p(x_i,z_i;\theta)=C Qi(zi)p(xi,zi;θ)=zp(xi,zi;θ)=C
    解得

Q i ( z i ) = p ( x i , z i ; θ ) ∑ z p ( x i , z i ; θ ) = p ( x i , z i ; θ ) p ( x i ; θ ) = p ( z i ∣ x i ; θ ) Q_i(z_i)=\frac{p(x_i,z_i;\theta)}{\sum_z p(x_i,z_i;\theta)} \\ =\frac{p(x_i,z_i;\theta)}{p(x_i;\theta)} \\ =p(z_i|x_i;\theta) Qi(zi)=zp(xi,zi;θ)p(xi,zi;θ)=p(xi;θ)p(xi,zi;θ)=p(zixi;θ)
意义:在 θ \theta θ参数下,xi条件下,取到zi的概率。
总结
E-step
固定 θ \theta θ,求zi的Qi的概率密度公式。建立 L ( θ ) L(\theta) (θ)的下界。
Q i ( z i ) : = p ( z i ∣ x i ; θ ) Q_i(z_i):=p(z_i|x_i;\theta) Qi(zi):=p(zixi;θ)

M-step:
给定Qi,极大似然估计 θ \theta θ。极大化 L ( θ ) L(\theta) L(θ)的下界(因为L最大化,下界也就随之提升)。得到新的 θ \theta θ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值