《数学之美》拾遗——潜在语义索引(LSI)

最新推荐文章于 2022-02-22 17:03:55 发布

zhiyong_will

最新推荐文章于 2022-02-22 17:03:55 发布

阅读量1w

点赞数 1

分类专栏：论文与材料的学习笔记文章标签：潜在语义索引潜在语义分析 LSI LSA SVD

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/google19890102/article/details/29591553

版权

论文与材料的学习笔记专栏收录该内容

22 篇文章 6 订阅

订阅专栏

一、潜在语义索引的提出

潜在语义索引(LSI)，又称为潜在语义分析(LSA)，是在信息检索领域提出来的一个概念。主要是在解决两类问题，一类是一词多义，如“bank”一词，可以指银行，也可以指河岸；另一类是一义多词，即同义词问题，如“car”和“automobile”具有相同的含义，如果在检索的过程中，在计算这两类问题的相似性时，依靠余弦相似性的方法将不能很好的处理这样的问题。所以提出了潜在语义索引的方法，利用SVD降维的方法将词项和文本映射到一个新的空间。

二、潜在语义索引的含义

潜在语义索引依靠SVD，具体SVD的操作过程可以参见《简单易学的机器学习算法——SVD奇异值分解》。

SVD的操作过程是将词项-文本矩阵

进行分解，分解为：

$C_{m\times n} = U_{m\times m}\sum \: _{m\times n}V^T_{n\times n}$

其中，

为左奇异矩阵， $\sum$ 是对角矩阵，对角线上是奇异值， $V^T$ 称为右奇异矩阵。

我们取前

个奇异值，构成新的矩阵，这样就可以重构矩阵

：

$C_{m\times n} = U_{m\times k}\sum \: _{k\times k}V^T_{k\times n}$

这样，我们便将原来的空间映射到了新的

维空间。

我们对一个具体的问题进行处理：

横坐标表示词“ship”，“boat”，“ocean”，“wood”和“tree”，纵坐标为文章“d1”，“d2”，“d3”，“d4”，“d5”和“d6”。我们对其进行奇异值分解，得到的 $\sum$ 矩阵为：

我们取

的值为2，

的值即为我们要隐射的空间，此时左奇异向量 $U_{5\times 2}$ 为：

这表第一个词与第一维空间更接近，依次类推，同样，我们可以得到右奇异矩阵 $V^T_{2\times 6}$ ：

这表第一列表示文章“d1”与第一位空间更接近。

中间矩阵

表示的是词和文章的相关关系。

三、实验的仿真

对于“《数学之美》拾遗——TF-IDF”中的数据：

进行奇异值分解，分解完的三个矩阵分别为：

这里可以看到9个奇异值的条状图：

我们可以看到不同奇异值的重要性程度，选取前3个奇异值。

此时得到三个修改后的矩阵：

依据不同的值，我们便可以将词和文章分到不同的维中。

参考文献

1、《数学之美》吴军著. 矩阵运算和文本处理中的两个分类问题. P137-142.

2、《An Introduction to Information Retrieval》Manning. Latent semantic indexing. P449-454.

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
9
评论
《数学之美》拾遗——潜在语义索引(LSI)

一、潜在语义索引的提出
复制链接

扫一扫

专栏目录

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。