潜在语义分析(Latent Semantic Analysis,LSA)模型, 也称LSI( Latent Semantic Indexing)。
LSA主要用于文本的主题提取,挖掘文本背后的含义、数据降维等。
本文先介绍向量空间模型(Vector Space Model, VSM)、奇异值分解等基本概念;接着,引出潜在语义分析(Latent Semantic Analysis,LSA)模型及其原理;然后,介绍LSA的相关工具,及在文本主题提取上的应用;最后,对LSA进行总结,指出LSA的本质、优缺点和发展历程。主要目录如下:
一、LSA基础
1、VSM模型
2、奇异值分解
3、截断奇异值分解
二、LSA原理
1、话题向量空间
2、LSA提出
3、LSA原理
三、LSA应用
1、LSA工具
2、LSA挖掘主题
四、LSA总结
1、LSA的本质
2、LSA的优缺点
3、LSA的发展
直接上PPT。
一、LSA基础
1、VSM模型
1975年,G. Salton等在论文《A Vector Space Model for Automatic Indexing》提出向量空间模型(Vector Space Model, VSM)。
VSM的基本思想:把一个文本映射成词向量,多个文本构成词向量空间。