LSA算法简单理解

最新推荐文章于 2025-08-22 10:38:46 发布

隔壁小徐不姓王

最新推荐文章于 2025-08-22 10:38:46 发布

阅读量1w

点赞数 4

CC 4.0 BY-SA版权

分类专栏：数据挖掘文章标签：数据挖掘 LSA LSI 潜在语义分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/callejon/article/details/49811819

LSA（潜在语义分析）利用奇异值分解将大矩阵分解为3部分：X表示词的语义类别，B表示词类与文章类的相关性，Y表示文章的主题分配。通过这种方式，LSA揭示了词与词之间以及文章与主题之间的潜在关联。

文本挖掘的两个方面应用：

（1）分类：

a.将词汇表中的字词按意思归类（比如将各种体育运动的名称都归成一类）

b.将文本按主题归类（比如将所有介绍足球的新闻归到体育类）

（2）检索：用户提出提问式（通常由若干个反映文本主题的词汇组成），然后系统在数据库中进行提问式和预存的文本关键词的自动匹配工作，两者相符的文本被检出。

文本分类中出现的问题：

（1）一词多义
比如bank 这个单词如果和mortgage, loans, rates 这些单词同时出现时，bank 很可能表示金融机构的意思。可是如果bank 这个单词和lures, casting, fish一起出现，那么很可能表示河岸的意思。
（2）一义多词
比如用户搜索“automobile”，即汽车，传统向量空间模型仅仅会返回包含“automobile”单词的页面，而实际上包含“car”单词的页面也可能是用户所需要的。

LSA原理：
通过对大量的文本集进行统计分析，从中提取出词语的上下文使用含义。技术上通过SVD分解等处理，消除了同义词、多义词的影响，提高了后续处理的精度。
流程：
（

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。