关于LSA（Latent Semantic Analysis）主题模型的个人理解

沧笙踏歌lzm

于 2015-07-01 11:43:08 发布

阅读量9.4k

点赞数 5

分类专栏： nlp ml 文章标签： LSA 语义分析 nlp SVD

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cang_sheng_ta_ge/article/details/46708515

版权

LSA是一种信息检索模型，通过统计计算分析文本，揭示词与词之间的潜在语义结构，以降维和消除词的相关性。通过词项-文档矩阵的SVD分解实现文档向低维潜在语义空间的映射，解决一义多词问题。

摘要由CSDN通过智能技术生成

LSA是1988年S.T. Dumais等提出的一种新的信息检索模型，它使用统计计算的方法对大量的文本集进行分析，提取出词与词之间潜在的语义结构，并用这种潜在的语义结构表示词和文本，达到消除词之间的相关性和简化文本向量实现降维的目的。

使用LSA可以部分解决一义多词（北京大学vs北大、电影vsmovie），但它是怎么解决一义多词的呢？LSA把高维向量空间模型表示中的文档映射到低维潜在语义空间中，在潜在语义空间计算相似性，这个映射通过对词项-文档矩阵SVD分解来实现。

LSA的基础是：向量空间模型 + 矩阵，介绍LSA之前先简单介绍下向量空间模型和矩阵的相关知识。

1.向量空间

在向量空间模型中，一篇文档可以表示为一个向量，其中每个分量对应一个词项，分量的值是词项在文档中出现的频率或者其它改进后的词项权值。

N篇文档组成的集合可以表示称为一个M*N 的矩阵，称作词项-文档矩阵，的行对应词项，列对应文档。具体如下：

在向量空间模型，通过计算向量间的相似度来衡量两个文档之间的相关性，常用的相似度计算方法为余弦相似度、欧氏距离、杰卡德相似系数、皮尔逊系数等。本文采用余玄相似度，计算公式如下：

如果我们想计算d2和d3的相似度，根据上面公式可得出：

直观上计算出的相似度为0，是否合理呢？答案是不合理，因为shi

最低0.47元/天解锁文章

沧笙踏歌lzm

关注

5
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。