EM算法、k-means、GMM

EM算法针对是有隐藏变量的无监督问题。
已知:观察到一组变量 x1,x2,...,xn x 1 , x 2 , . . . , x n (由隐藏变量 Z Z 决定),P(Z|X,θ) P(X|Z,θ) P ( X | Z , θ )
求解:在损失函数 L(X|θ) L ( X | θ ) 下的最优解 Z,θ Z , θ
理论推导:

L(X|θ)=log p(X|θ) L ( X | θ ) = l o g   p ( X | θ )

=log[Zp(X,Z|θ)] = l o g [ ∑ Z p ( X , Z | θ ) ]

=log[Zp(X|Z,θ)p(Z|θ)] = l o g [ ∑ Z p ( X | Z , θ ) p ( Z | θ ) ]

=log[Zp(Z|X,θ(i))p(X|Z,θ)p(Z|θ)p(Z|X,θ(i))] = l o g [ ∑ Z p ( Z | X , θ ( i ) ) p ( X | Z , θ ) p ( Z | θ ) p ( Z | X , θ ( i ) ) ]

Zp(Z|X,θ(i))log[p(X|Z,θ)p(Z|θ)p(Z|X,θ(i))] ≥ ∑ Z p ( Z | X , θ ( i ) ) l o g [ p ( X | Z , θ ) p ( Z | θ ) p ( Z | X , θ ( i ) ) ]

最大化 Zp(Z|X,θ(i))log[p(X|Z,θ)p(Z|θ)p(Z|X,θ(i))] ∑ Z p ( Z | X , θ ( i ) ) l o g [ p ( X | Z , θ ) p ( Z | θ ) p ( Z | X , θ ( i ) ) ] ,显然 θ(i) θ ( i ) 单调递增(因为每次都是最大化下限,下限就是 L(X|θ(i)) L ( X | θ ( i ) )
最大化下限这步叫做M步(maximization),求 p(Z|X,θ(i)) p ( Z | X , θ ( i ) ) 这步叫E步骤(expectation)。

实例:
k-means
已知:观察到一组变量 x1,x2,...,xn x 1 , x 2 , . . . , x n θ θ k k 个中心点;Z X X 属于哪个中心,P(Z|X,θ)为离那个中心近,相应的 Z Z 的分量为1;P(X,Z|θ) θ θ 为对应类别的中心时概率为1,其他概率为0。
LOSS: X X 距离最近类别的中心的距离和。
E步:求X属于 k k 个中的那一类,即求Z
M步:求在 X,Z X , Z 条件下 θ θ 的值。

Guass Mixture Model
已知:观察到一组变量 x1,x2,...,xn x 1 , x 2 , . . . , x n θ θ k k 个高斯分布和相应的权重;P(Z|X,θ)为属于哪个高斯分布的概率; P(X,Z|θ) P ( X , Z | θ ) 当在 X,Z X , Z 条件下,高斯分布的参数。
LOSS: X X 距离最近类别的中心的距离和。
E步:求X对应的 Z Z
M步:求在X,Z条件下 θ θ 的值。

k-means优点:计算简单;缺点:当不同类别的范围不同时,可能会不准确
GMM有点:精确,除了聚类,还可以拟合概率分布;缺点:计算复杂

补充:当中心数目不确定时,可以多取几个k值,计算轮廓系数的方法来得出最优的k值。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值