文本聚类问题:
一个文本为一个向量,向量的长度为字典的长度,这个向量中的每个值为0或1,表示这个单词是否在该文章中出现。
假设为二分类,则每个向量对应一个分类值,分类值为0或1,如果为三分类,则分类值为0,1,2。而这个标签值为隐变量Z。
这里的观测O为具体的各个向量。在这个模型里,参数是什么呢?
我们需要由参数出发,经由隐变量,计算得到观测O,因此这里的参数设计可以类似于隐马尔可夫模型的参数设计,
1、隐变量不同值得概率P(Z=1);
2、隐变量Z为1时,向量特定位置为1的概率P(Xj=1 | Z=1);
3、隐变量Z为0时,向量特定位置为1的概率P(Xj=1 | Z=0);
附:Andrew Ng斯坦福大学EM算法公开课地址:http://open.163.com/movie/2008/1/L/3/M6SGF6VB4_M6SGKK6L3.html
算法的具体推导过程如下图所示。