数据挖掘
看星星灰
这个作者很懒,什么都没留下…
展开
-
PLSA详解推导
PLSA的概率图模型如下 其中D代表文档,Z代表隐含类别或者主题,W为观察到的单词,表示单词出现在文档的概率,表示文档中出现主题下的单词的概率,给定主题出现单词的概率。并且每个主题在所有词项上服从Multinomial 分布,每个文档在所有主题上服从Multinomial 分布。整个文档的生成过程是这样的: (1) 以的概率选中文档; (2原创 2013-05-21 19:59:37 · 1708 阅读 · 0 评论 -
PLSA详细介绍
1.引子 Bag-of-Words 模型是NLP和IR领域中的一个基本假设。在这个模型中,一个文档(document)被表示为一组单词(word/term)的无序组合, 而忽略了语法或者词序的部分。BOW在传统NLP领域取得了巨大的成功,在计算机视觉领域(Computer Vision)也开始崭露头角,但在 实际应用过程中,它却有一些不可避免的缺陷,比如: 稀疏性(Sp转载 2013-05-16 10:28:40 · 5221 阅读 · 0 评论