信息检索（七）-- 基于潜在语义分析 (LSI）的信息检索模型

最新推荐文章于 2022-02-22 17:03:55 发布

愉贵妃珂里叶特氏海兰

最新推荐文章于 2022-02-22 17:03:55 发布

阅读量409

点赞数

分类专栏：信息检索-THU-2020春文章标签：信息检索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41332009/article/details/111470786

版权

信息检索-THU-2020春专栏收录该内容

13 篇文章 6 订阅

订阅专栏

基于潜在语义分析 (LSI）的信息检索模型

（本章课上涉及到的内容 too mathy，这里去掉了不常用的过于复杂的数学内容）

1、用co-occurence来衡量词和词的相似度
在这里插入图片描述

term-term matrix: 词语的共现
每次选定一个中心词，有一个滑动的小窗，看context word落在以中心词为中心的小窗中。

举个栗子：
term-document matrix：词语在不同的文档中出现了多少次，可以用它来做Latent Semantic Analysis(LSI)
举例：

但是，这样的term-term矩阵和term-doc矩阵太过庞大且稀疏，所以我们要对它进行特征降维。

2、SVD分解
先复习一下奇异值分解：
在这里插入图片描述
酉矩阵的定义：
5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MTMzMjAwOQ==,size_16,color_FFFFFF,t_70)
对term-doc矩阵做奇异值分解：

只保留前k个最大的特征值，后面的特征值置零：

在U矩阵中，term已经缩小为了k维；在V矩阵中，doc已经缩小为了k维。
同样的，对term-term矩阵也可以做同样的操作，取最大的k个特征值：
在这里插入图片描述

矩阵的相似度

F-范数：
在这里插入图片描述

经过SVD分解之后的矩阵Ak由于只保留了k个最大的特征值，已经丢失了部分信息，因此只是原矩阵A的近似。Ak和A的距离为：
在这里插入图片描述

愉贵妃珂里叶特氏海兰

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
信息检索（七）-- 基于潜在语义分析 (LSI）的信息检索模型

基于潜在语义分析 (LSI）的信息检索模型（本章课上涉及到的内容 too mathy，这里去掉了不常用的过于复杂的数学内容）1、用co-occurence来衡量词和词的相似度term-term matrix: 词语的共现每次选定一个中心词，有一个滑动的小窗，看context word落在以中心词为中心的小窗中。举个栗子：term-document matrix：词语在不同的文档中出现了多少次，可以用它来做Latent Semantic Analysis(LSI)举例：但是，这样的
复制链接

扫一扫

专栏目录

愉贵妃珂里叶特氏海兰 CSDN认证博客专家 CSDN认证企业博客

码龄7年

108: 原创

30万+: 周排名

167万+: 总排名

8万+: 访问

: 等级

1258: 积分

131: 粉丝

75: 获赞

29: 评论

319: 收藏

私信

关注

热门文章

分类专栏

最新评论

基于网络嵌入和语义表征的作者名消歧
Amina_L: 请问哪里可以看到代码呢？您文章中的参考文献部分没有了
ROUGE评测标准
LIIIIIIIIIIII1: 一般来说是不参与的，训练阶段是使用Loss来训练模型，ROUGE和BLEU等属于测评值，是为了体现结果的好坏的。类似于你做分类任务，训练阶段就使用交叉熵Loss训练模型，而直观呈现出来结果的好坏可以通过准确率这个测评值来体现。
ROUGE评测标准
胡萝卜工厂: 你现在知道了吗我也很疑惑同问
数仓 - 促销敏感度、评论敏感度
南宫贇: 精准、精细化的运营？主要指哪方面啊？
基于网络嵌入和语义表征的作者名消歧
Teddyonthebench: 帮助很大

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。