LSA算法简单理解

最新推荐文章于 2024-02-01 10:22:21 发布

VIP文章隔壁小徐不姓王

最新推荐文章于 2024-02-01 10:22:21 发布

阅读量9.9k

点赞数 4

分类专栏：数据挖掘文章标签：数据挖掘 LSA LSI 潜在语义分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/callejon/article/details/49811819

版权

文本挖掘的两个方面应用：

（1）分类：

a.将词汇表中的字词按意思归类（比如将各种体育运动的名称都归成一类）

b.将文本按主题归类（比如将所有介绍足球的新闻归到体育类）

（2）检索：用户提出提问式（通常由若干个反映文本主题的词汇组成），然后系统在数据库中进行提问式和预存的文本关键词的自动匹配工作，两者相符的文本被检出。

文本分类中出现的问题：

（1）一词多义
比如bank 这个单词如果和mortgage, loans, rates 这些单词同时出现时，bank 很可能表示金融机构的意思。可是如果bank 这个单词和lures, casting, fish一起出现，那么很可能表示河岸的意思。
（2）一义多词
比如用户搜索“automobile”，即汽车，传统向量空间模型仅仅会返回包含“automobile”单词的页面，而实际上包含“car”单词的页面也可能是用户所需要的。

LSA原理：
通过对大量的文本集进行统计分析，从中提取出词语的上下文使用

最低0.47元/天解锁文章

隔壁小徐不姓王

关注

4
点赞
踩
11

收藏

觉得还不错? 一键收藏
2
评论
LSA算法简单理解

文本挖掘的两个方面应用：（1）分类：a.将词汇表中的字词按意思归类（比如将各种体育运动的名称都归成一类）b.将文本按主题归类（比如将所有介绍足球的新闻归到体育类）（2）检索：用户提出提问式（通常由若干个反映文本主题的词汇组成），然后系统在数据库中进行提问式和预存的文本关键词的自动匹配工作，两者相符的文本被检出。文本分类中出现的问题：（1）一词多义比如bank 这
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。