标签(空格分隔): 机器学习
(最近被一波波的笔试+面试淹没了,但是在有两次面试时被问到了同一个问题:K-Means算法的收敛性。在网上查阅了很多资料,并没有看到很清晰的解释,所以希望可以从K-Means与EM算法的关系,以及EM算法本身的收敛性证明中找到蛛丝马迹,下次不要再掉坑啊。。)
EM算法的收敛性
1.通过极大似然估计建立目标函数:
l(θ)=∑mi=1log p(x;θ)=∑mi=1log∑zp(x,z;θ)
通过EM算法来找到似然函数的极大值,思路如下:
希望找到最好的参数 θ ,能够使最大似然目标函数取最大值。但是直接计算 l(θ)=∑mi=1log∑zp(x,z;θ) 比较困难,所以我们希望能够找到一个不带隐变量 z 的函数
如下图所示:
- 在绿色线位置,找到一个 γ 函数,能够使得该函数最接近目标函数,
- 固定 γ 函数,找到最大值,然后更新 θ ,得到红线;
- 对于红线位置的参数 θ :
- 固定 θ ,找到一个最好的函数 γ ,使得该函数更接近目标函数。
重复该过程,直到收敛到局部最大值。
- 固定 θ ,找到一个最好的函数 γ ,使得该函数更接近目标函数。
2. 从Jensen不等式的角度来推导
令 Qi 是 z 的一个分布,
l(θ)=∑