目录
算法步骤
1.构建词-文档矩阵(TF-IDF)。
2.利用SVD进行降维(k维)。
3.计算降维后的词-文档矩阵。
4.文档相似度(余弦)计算。
优缺点
优点
1)低维空间表示可以刻画同义词,同义词会对应着相同或相似的主题。
2)降维可去除部分噪声,是特征更鲁棒。
3)充分利用冗余数据。
4)无监督/完全自动化。
5)与语言无关。
缺点
1)每一次查询都要重新计算一次SVD,而SVD是十分消耗计算资源的;
非负矩阵分解(NMF)可以解决矩阵分解的速度问题。
2)概念数量k的选择并不容易;
大部分主题模型的主题的个数选取一般都是凭经验的,较新的层次狄利克雷过程(HDP)可以自动选择主题个数。
3)LSI得到的不是一个概率模型,缺乏统计基础,结果难以直观的解释。
PLSI(PLSA)和LDA这类基于概率分布的主题模型来替代基于矩阵分解的主题模型。
适用场景
原始的词-文档矩阵太大导致计算机无法处理,降维后的新矩阵式原有矩阵的一个近似。
原始的词-文档矩阵中有噪音,降维后的新矩阵式原矩阵的一个去噪矩阵。
原始的词-文档矩阵过于稀疏。原始的词-文档矩阵精确的反映了每个词是否“出现”于某篇文档的情况,然而我们对某篇文档“相关”的所有词更感兴趣,因此需要发掘一个词的各种同义词的情况。
实现目的
单词相关度计算
特征降维
聚类
上下游算法
上游
词向量模型
BOW
TF-IDF
N-gram
Word2Vec
VSM
矩阵分解
SVD
NMF
下游
无