基于EM算法的文本聚类

文本聚类问题:

一个文本为一个向量,向量的长度为字典的长度,这个向量中的每个值为0或1,表示这个单词是否在该文章中出现。

假设为二分类,则每个向量对应一个分类值,分类值为0或1,如果为三分类,则分类值为0,1,2。而这个标签值为隐变量Z。

这里的观测O为具体的各个向量。在这个模型里,参数是什么呢?

我们需要由参数出发,经由隐变量,计算得到观测O,因此这里的参数设计可以类似于隐马尔可夫模型的参数设计,

1、隐变量不同值得概率P(Z=1);

2、隐变量Z为1时,向量特定位置为1的概率P(Xj=1 | Z=1);

3、隐变量Z为0时,向量特定位置为1的概率P(Xj=1 | Z=0);

附:Andrew Ng斯坦福大学EM算法公开课地址:http://open.163.com/movie/2008/1/L/3/M6SGF6VB4_M6SGKK6L3.html

算法的具体推导过程如下图所示。


  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值