隐性语义索引 LSI

隐性语义索引(Latent Semantic Indexing,以下简称LSI ),有的文章也叫Latent Semantic Analysis(LSA )。其实是一个东西,后面我们统称LSI ,它是一种简单实用的主题模型。它是一种利用奇异值分解(SVD )方法获得在文本中术语和概念之间关系的索引和获取方法。该方法的主要依据是在相同文章中的词语一般有类似的含义,可以从一篇文章中提...
摘要由CSDN通过智能技术生成

        隐性语义索引(Latent Semantic Indexing,以下简称LSI ),有的文章也叫Latent Semantic  Analysis(LSA )。其实是一个东西,后面我们统称LSI ,它是一种简单实用的主题模型。它是一种利用奇异值分解(SVD )方法获得在文本中术语和概念之间关系的索引和获取方法。该方法的主要依据是在相同文章中的词语一般有类似的含义,可以从一篇文章中提取术语关系,从而建立起主要概念内容。

       隐性语义索引(Latent Semantic Idexing),也可译为隐含语义索引,是近年来逐渐兴起的不同于关键词检索的搜索引擎解决方案,其通过海量文献找出词汇之间的关系,当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。比如:

(1)"手机"和"电话"这两个词在人们写文章时经常混用,这两个词在大量的网页中同时出现,搜索引擎就会认为这两个词是极为语义相关的。

(2)"Latent Semantic Idexing"和"隐性语义索引"(虽然一个是英语,一个是中文)这两个词大量出现在相同的网页中,虽然搜索引擎还不能知道"Latent Semantic Idexing或"隐性语义索引"指的是什么,但是却可以从语义上把"Latent Semantic Idexing"、"隐性语义索引"、"LSI "、"潜在语义索引"等词紧紧的连在一起。可见潜在语义索引并不依赖于语言。

(3)如梨子和李子这两个词,也是大量出现在相同文档中,不过紧密度低于同义词。所以搜索引擎不会认为它们是语义相关的。

(4)对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“ 冰”等,这里有很大区别。

       隐性语义索引使得检索结果的实际效果更接近于人的自然语言,在一定程度上提高检索结果的相关性,目前已被逐渐的应用到图书馆、数据库和搜索引擎的算法当中。Google是典型的代表。本文分利用前面已学的SVD 知识,讲解如何用SVD 进行信息检索的隐性语义检索(LSI ),并用实例进行分析。

       首先简要回顾下SVD :对于一个m×n 的矩阵M,可以分解为下面三个矩阵:

为了降低矩阵的维度到k ,SVD 的分解可以近似的写为:

                                                                                

       SVD 可以看作

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值