隐性语义索引 LSI

隐性语义索引(LSI)是一种利用奇异值分解(SVD)揭示文本中术语和概念关系的索引方法。通过找出词汇间的语义相关性,改善信息检索效果。LSI在降低矩阵维度的同时,可能带来信息偏差,适用于小规模问题,但在大规模文本处理中由于计算耗时和主题选择困难,已被概率模型如LDA取代。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        隐性语义索引(Latent Semantic Indexing,以下简称LSI ),有的文章也叫Latent Semantic  Analysis(LSA )。其实是一个东西,后面我们统称LSI ,它是一种简单实用的主题模型。它是一种利用奇异值分解(SVD )方法获得在文本中术语和概念之间关系的索引和获取方法。该方法的主要依据是在相同文章中的词语一般有类似的含义,可以从一篇文章中提取术语关系,从而建立起主要概念内容。

       隐性语义索引(Latent Semantic Idexing),也可译为隐含语义索引,是近年来逐渐兴起的不同于关键词检索的搜索引擎解决方案,其通过海量文献找出词汇之间的关系,当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。比如:

(1)"手机"和"电话"这两个词在人们写文章时经常混用,这两个词在大量的网页中同时出现,搜索引擎就会认为这两个词是极为语义相关的。

(2)"Latent Semantic Idexing"和"隐性语义索引"(虽然一个是英语,一个是中文)这两个词大量出现在相同的网页中,虽然搜索引擎还不能知道"Latent Semantic Idexing或"隐性语义索引"指的是什么,但是却可以从语义上把"Latent Semantic Idexing"、"隐性语义索引"、"LSI "、"潜在语义索引"等词紧紧的连在一起。可见潜在语义索引并不依赖于语言。

(3)如梨子和李子这两个词,也是大量出现在相同文档中,不过紧密度低于同义词。所以搜索引擎不会认为它们是语义相关的。

(4)对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“ 冰”等,这里有很大区别。

       隐性语义索引使得检索结果的实际效果更接近于人的自然语言,在一定程度上提高检索结果的相关性,目前已被逐渐的应用到图书馆、数据库和搜索引擎的算法当中。Google是典型的代表。本文分利用前面已学的SVD 知识,讲解如何用SVD 进行信息检索的隐性语义检索(LSI ),并用实例进行分析。

       首先简要回顾下SVD :对于一个m×n 的矩阵M,可以分解为下面三个矩阵:

为了降低矩阵的维度到k ,SVD 的分解可以近似的写为:

                                                                                

       SVD 可以看作是从单词-文档矩阵中发现不相关的索引变量(因子),将原来的数据映射到语义空间内。LSI 使用SVD 来对单词-文档矩阵进行分解,其本质上是把每个特征映射到了一个更低维的子空间(sub space) 。如果把上式用到我们的主题模型,则SVD 可以这样解释

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值