潜在语义分析是一种无监督学习方法,主要用于文本的话题分析,其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。
1 权值的计算
2 单词向量空间
从相似度公式可以看出,两个文本中的共同单词越多,语义内容就越相似。但是对于一个单词的一词多义性及多词一义性,相似度公式无法准确描述。
3 话题向量空间
有了单词向量空间为什么还要引出话题向量空间呢?
前面提到,单词向量空间(单词-文本矩阵)是一个稀疏矩阵,计算量大;其次两个相似的单词会完全独立,不能很好的描述文本相似度。因此要引入话题向量空间来降维。