潜在语义分析Latent semantic analysis note(LSA)原理及代码实现

最新推荐文章于 2024-09-12 18:25:39 发布

bob007

最新推荐文章于 2024-09-12 18:25:39 发布

阅读量1.7w

点赞数 6

CC 4.0 BY-SA版权

分类专栏：机器学习 python 文章标签： python 算法 lsi 潜在语义挖掘

本文链接：https://blog.csdn.net/bob007/article/details/30496559

本文介绍了潜在语义分析（LSA）的基本原理，包括它如何通过降维技术解决词语多义性问题，以及在文档检索中的应用。通过Python代码展示了如何从亚马逊书籍标题中提取索引词，构建词-文档矩阵，并进行奇异值分解（SVD）以实现LSA。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章参考：http://blog.sina.com.cn/s/blog_62a9902f0101cjl3.html

Latent Semantic Analysis (LSA)也被叫做Latent Semantic Indexing(LSI)，从字面上的意思理解就是通过分析文档去发现这些文档中潜在的意思和概念。假设每个词仅表示一个概念，并且每个概念仅仅被一个词所描述，LSA将非常简单（从词到概念存在一个简单的映射关系）

不幸的是，这个问题并没有如此简单，因为存在不同的词表示同一个意思（同义词），一个词表示多个意思，所有这种二义性（多义性）都会混淆概念以至于有时就算是人也很难理解。

例如,银行这个词和抵押、贷款、利率一起出现时往往表示金融机构。但是，和鱼饵，投掷、鱼一起出现时往往表示河岸。

潜语义分析工作原理

潜语义分析（Latent SemanticAnalysis）源自问题：如何从搜索query中找到相关的文档。当我们试图通过比较词来找到相关的文本时，存在着难以解决的局限性，那就是在搜索中我们实际想要去比较的不是词，而是隐藏在词之后的意义和概念。潜语义分析试图去解决这个问题，它把词和文档都映射到一个‘概念’空间并在这个空间内进行比较（注：也就是一种降维技术）。

当文档的作者写作的时候，对于词语有着非常宽泛的选择。不同的作者对于词语的选择有着不同的偏好，这样会导致概念的混淆。这种对于词语的随机选择在词-概念的关系中引入了噪音。LSA滤除了这样的一些噪音，并且还能够从全部的文档中找到最小的概念集合（为什么是最小？）。

为了让这个难题更好解决，LSA引入一些重要的简化：

1. 文档被表示为”一堆词（bags of words）”，因此词在文档中出现的位置并不重要，只有一个词的出现次数。

2.概念被表示成经常出现在一起的一些词的某种模式。例如“leash”（栓狗的皮带）、“treat”、“obey”（服从）经常出现在关于训练狗的文档中。

3.词被认为只有一个意思。这个显然会有反例（bank表示河岸或者金融机构），但是这可以使得问题变得更加容易。（这个简化会有怎样的缺陷呢？）

接下来看一个LSA的小例子，Next Part：

一个简单的小例子

一个小例子，我在amazon.com上搜索”investing”(投资) 并且取top10搜索结果的书名。其中一个被废弃了，因为它只含有一个索引词（indexword）和其它标题相同。索引词可以是任何满足下列条件的词：

1. 在2个或者2个以上标题中出现并且

2. 不是那种特别常见的词例如 “and”, ”the” 这种（停用词-stopword）。这种词没有包含进来是因为他们本身不存在什么意义。

在这个例子中，我们拿掉了如下停用词：“and”, “edition”, “for”, “in”,“little”, “of”, “the”, “to”.

下面就是那9个标题，索引词（在2个或2个以上标题出现过的非停用词）被下划线标注：