LSI

最新推荐文章于 2023-10-15 08:03:38 发布

*Snowgrass*

最新推荐文章于 2023-10-15 08:03:38 发布

阅读量406

点赞数

文章标签：主题模型 LSI 隐形语义索引潜在语义索引

本文链接：https://blog.csdn.net/qq_36535820/article/details/100932224

版权

算法步骤

1.构建词-文档矩阵（TF-IDF）。
       2.利用SVD进行降维（k维）。
       3.计算降维后的词-文档矩阵。
       4.文档相似度（余弦）计算。

优缺点

优点

1）低维空间表示可以刻画同义词，同义词会对应着相同或相似的主题。
           2）降维可去除部分噪声，是特征更鲁棒。
           3）充分利用冗余数据。
           4）无监督/完全自动化。
           5）与语言无关。

缺点

1）每一次查询都要重新计算一次SVD，而SVD是十分消耗计算资源的；
               非负矩阵分解（NMF）可以解决矩阵分解的速度问题。
           2）概念数量k的选择并不容易；
               大部分主题模型的主题的个数选取一般都是凭经验的，较新的层次狄利克雷过程（HDP）可以自动选择主题个数。
           3）LSI得到的不是一个概率模型，缺乏统计基础，结果难以直观的解释。
               PLSI(PLSA)和LDA这类基于概率分布的主题模型来替代基于矩阵分解的主题模型。

适用场景

原始的词-文档矩阵太大导致计算机无法处理，降维后的新矩阵式原有矩阵的一个近似。
原始的词-文档矩阵中有噪音，降维后的新矩阵式原矩阵的一个去噪矩阵。
原始的词-文档矩阵过于稀疏。原始的词-文档矩阵精确的反映了每个词是否“出现”于某篇文档的情况，然而我们对某篇文档“相关”的所有词更感兴趣，因此需要发掘一个词的各种同义词的情况。

实现目的

       单词相关度计算
       特征降维
       聚类

上下游算法

上游

词向量模型
               BOW
               TF-IDF
               N-gram
               Word2Vec
               VSM
           矩阵分解
               SVD
               NMF