隐性语义索引 LSI

最新推荐文章于 2021-12-03 15:32:04 发布

*Snowgrass*

最新推荐文章于 2021-12-03 15:32:04 发布

阅读量1.5k

点赞数 4

分类专栏：主题模型文章标签：隐性语义分析 LSI 潜在语义分析潜在语义索引 LSA

本文链接：https://blog.csdn.net/qq_36535820/article/details/102792540

版权

隐性语义索引(Latent Semantic Indexing,以下简称LSI )，有的文章也叫Latent Semantic Analysis（LSA ）。其实是一个东西，后面我们统称LSI ，它是一种简单实用的主题模型。它是一种利用奇异值分解(SVD )方法获得在文本中术语和概念之间关系的索引和获取方法。该方法的主要依据是在相同文章中的词语一般有类似的含义,可以从一篇文章中提...

摘要由CSDN通过智能技术生成

隐性语义索引（Latent Semantic Idexing），也可译为隐含语义索引，是近年来逐渐兴起的不同于关键词检索的搜索引擎解决方案，其通过海量文献找出词汇之间的关系，当两个词或一组词大量出现在同一个文档中时，这些词之间就可以被认为是语义相关。比如:

(1)"手机"和"电话"这两个词在人们写文章时经常混用，这两个词在大量的网页中同时出现，搜索引擎就会认为这两个词是极为语义相关的。

(2)"Latent Semantic Idexing"和"隐性语义索引"(虽然一个是英语，一个是中文)这两个词大量出现在相同的网页中，虽然搜索引擎还不能知道"Latent Semantic Idexing或"隐性语义索引"指的是什么，但是却可以从语义上把"Latent Semantic Idexing"、"隐性语义索引"、"LSI "、"潜在语义索引"等词紧紧的连在一起。可见潜在语义索引并不依赖于语言。

(3)如梨子和李子这两个词，也是大量出现在相同文档中，不过紧密度低于同义词。所以搜索引擎不会认为它们是语义相关的。

(4)对“水”一词而言，与其语义相关的可能是“热水”、“凉水”之类，但潜在相关的则可以是“蒸汽”、“ 冰”等，这里有很大区别。

隐性语义索引使得检索结果的实际效果更接近于人的自然语言，在一定程度上提高检索结果的相关性，目前已被逐渐的应用到图书馆、数据库和搜索引擎的算法当中。Google是典型的代表。本文分利用前面已学的SVD 知识，讲解如何用SVD 进行信息检索的隐性语义检索（LSI ），并用实例进行分析。

首先简要回顾下SVD ：对于一个m×n 的矩阵M，可以分解为下面三个矩阵：

为了降低矩阵的维度到k ，SVD 的分解可以近似的写为：

SVD 可以看作

最低0.47元/天解锁文章

*Snowgrass*

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
隐性语义索引 LSI

隐性语义索引(Latent Semantic Indexing,以下简称LSI )，有的文章也叫Latent Semantic Analysis（LSA ）。其实是一个东西，后面我们统称LSI ，它是一种简单实用的主题模型。它是一种利用奇异值分解(SVD )方法获得在文本中术语和概念之间关系的索引和获取方法。该方法的主要依据是在相同文章中的词语一般有类似的含义,可以从一篇文章中提...
复制链接

扫一扫