《数学之美》第27章期望最大化算法

最新推荐文章于 2020-11-30 02:09:40 发布

剑九黄

最新推荐文章于 2020-11-30 02:09:40 发布

阅读量501

点赞数 1

文章标签：数学之美自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangsiji_buaa/article/details/80349294

版权

1 文本的自收敛分类

两种文本分类算法，即利用事先设定好的类别对新的文本进行分类，以及自底向上地将文本两两比较进行聚类的方法。这两种方法，多少都有一些局限性，比如前一种方法需要有事先设定好的类别和文本中心，后一种方法计算时间比较长。

期望最大化算法：

1. 随机挑选K个点，作为起始的中心。

2. 计算所有点到这些聚类中心到距离，将这些点归到最近的一类中。

3. 重新计算每一类的中心。

4. 重复上述过程，直到每次新的中心和旧的中心之间的偏移非常非常小，即过程收敛。

2 期望最大化和收敛的必然性

距离函数足够好，它能保证同一类相对距离较近，而不同类的相对距离较远。

算法包括两个过程和一组目标函数。这两个过程是：

1. 根据现有的聚类结果，对所有的数据重新进行划分。

2. 根据重新划分的结果，得到新的聚类。

EM算法是否一定能保证获得全局最优解？

如果我们优化的目标函数是一个图凸函数，那么一定能保证得到全局最优解。

但是，对应的很多情况，包括文本分类中的余弦距离都不保证是凸函数，因此有可能EM算法给出的是局部最佳解而非全局最佳解。

EM算法只需要有一些训练数据，定义一个最大化函数，剩下的事情就交给计算机了。经过若干次迭代，我们需要的模型就训练好了。这实在是太美妙了，这也许是造物主刻意安排的。所以称作“上帝的算法”。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。