隐性语义索引(LSI)学习笔记

最新推荐文章于 2021-02-18 15:45:18 发布

pi9nc

最新推荐文章于 2021-02-18 15:45:18 发布

阅读量3.9k

点赞数

分类专栏： Machine learning

Machine learning 专栏收录该内容

168 篇文章 10 订阅

订阅专栏

隐性语义索引(LSI)学习笔记

Posted on 星期三, 十月 26th, 2011 at 下午 10:20

1.Introduction

在向量模型中，将查询和文档均表示成同一空间下的向量，可以使用余弦相似度进行评分计算。但是，向量空间表示方法没有能力处理自然语言理解中的两个经典问题：一词多义（polysemy）和一义多词（synonymy）。使用LSI可以利用词项的共现情况，将词和文档映射到潜在语义空间，从而去除了原始向量空间中的一些“噪音”，提高了信息检索的精确度。

2.SVD分解

文档集可以转换成词项-文档矩阵，每一行代表一个词项，每一列代表一个文档，矩阵元素(t,d)代表词项t在文档d中出现的次数。将词项-文档矩阵进行SVD分解，可以得到：

其中，r是WW^T的秩，Σ是W矩阵的奇异值（按降序排列），T的每一列都是WW^T的正交特征向量，D的每一列都是W^TW的正交特征向量，W^T代表W的转置。

接着，我们将低秩逼近应用到词项-文档矩阵的逼近问题上来。对于Σ，把对角线上r-k个最小奇异值置为0，从而得到Σ’，从新计算W’可以作为W的逼近。

3.LSI在检索应用

从原始的词项-文档矩阵W, 我们计算得到它的近似W’。在W’ 中，依然是每行对应一个词项，每列对应一个文档，区别是文档在新的空间，它的维度 k << r。

比较两个词项：

比较两个文档：

LSI检索：

对于新的查询或者文档，可以将之映射到LSI的空间中。对于q，映射到LSI空间后表示为q’，（q为列向量）：

(注：由于T是正交归一化矩阵，因此T^-1 = T^T)

得到LSI空间中的q’后，则可以通过计算D及q’的cosine值得到查询与每个文档的距离。

4.总结

使用SVD分解以及低秩逼近，可以通过文档的上下文信息来部分解决一义多词的问题。如果减低k值，召回率将提高，当d取几百之内的数目时，某些查询的正确率实际上也会得到提高。但LSI仍然延续了向量空间检索的两个缺点：无法表示否定查询及无法完成布尔条件查询，并且LSI的计算开销很大。

5.参考文献

Indexing by Latent Semantic Analysis

原创文章，转载请注明：Shall的博客

本文链接：http://www.ifshall.com/2011/10/26/隐性语义索引lsi学习笔记/

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。