pLSA/mixture unigram/gmm em算法公式汇总
1、LSA(隐性语义分析)和SVD(奇异值分解)在VSM(文档空间向量模型中)在文章看做词袋的集合,将文档转换为同一空间向量进行计算,聚类,分类,文本检索是减少计算量,但是难以考虑文档位置以及文档的一词多义性。
基于SVD分解,我们可以构造一个原始向量矩阵的一个低秩逼近矩阵,具体的做法是将词项文档矩阵做SVD分解其中 是以词项(terms)为行, 文档(documents)为列做一个大矩阵. 设一
转载
2015-09-22 19:21:58 ·
1006 阅读 ·
0 评论