潜在语义分析学习笔记

潜在语义分析(LSA)是一种无监督学习方法,用于文本话题分析。通过矩阵分解揭示文本与单词间的基于话题的语义关系。它解决了一词多义和多词一义的问题,并通过话题向量空间降维来提高相似度计算的准确性。主要步骤包括权值计算、构建单词向量空间,然后利用奇异值分解进行降维。
摘要由CSDN通过智能技术生成

潜在语义分析是一种无监督学习方法,主要用于文本的话题分析,其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。

1 权值的计算

2 单词向量空间

从相似度公式可以看出,两个文本中的共同单词越多,语义内容就越相似。但是对于一个单词的一词多义性及多词一义性,相似度公式无法准确描述。

3 话题向量空间

有了单词向量空间为什么还要引出话题向量空间呢?

前面提到,单词向量空间(单词-文本矩阵)是一个稀疏矩阵,计算量大;其次两个相似的单词会完全独立,不能很好的描述文本相似度。因此要引入话题向量空间来降维。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值