向量空间模型算法(Vector Space Model)

Winyar Wen

已于 2024-05-20 20:14:24 修改

阅读量2.8k

点赞数 1

分类专栏：算法题文章标签：向量空间模型算法

于 2019-07-20 12:12:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42394052/article/details/96576963

版权

算法题专栏收录该内容

14 篇文章 1 订阅

订阅专栏

概念介绍

向量空间模型（VSM：Vector Space Model）由Salton等人于20世纪70年代提出，并成功地应用于文本检索系统。
VSM概念简单，把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，直观易懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。
M个无序特征项ti，词根/词/短语/其他每个文档dj可以用特征项向量来表示（a1j,a2j，…， aMj）权重计算，N个训练文档AM*N= (aij) 文档相似度比较

向量空间模型（或词组向量模型) 是一个应用于信息过滤，信息撷取，索引以及评估相关性的代数模型。

算法原理

1.计算权重(Term weight)的过程。

影响一个词(Term)在一篇文档中的重要性主要有两个因素：

Term Frequency (tf)：即此Term在此文档中出现了多少次。tf 越大说明越重要。

Document Frequency (df)：即有多少文档包含次Term。df 越大说明越不重要。

词(Term)在文档中出现的次数越多，说明此词(Term)对该文档越重要，如“搜索”这个词，在本文档中出现的次数很多，说明本文档主要就是讲这方面的事的。然而在一篇英语文档中， this出现的次数更多，就说明越重要吗？不是的，这是由第二个因素进行调整，第二个因素说

明，有越多的文档包含此词(Term), 说明此词(Term)太普通，不足以区分这些文档，因而重要性越低。

我们来看一下模型公式：

在这里插入图片描述
说明：

这仅仅只term weight计算公式的简单典型实现。实现全文检索系统的人会有自己的实现， Lucene就与此稍有不同。

2.判断Term之间的关系从而得到文档相关性的过程，也即向量空间模型的算法(VSM)。

我们把文档看作一系列词(Term)，每一个词(Term)都有一个权重(Term weight)，不同的词(Term)根据自己在文档中的权重来影响文档相关性的打分计算。
于是我们把所有此文档中词(term)的权重(term weight) 看作一个向量。

Document = {term1, term2, …… ,term N}

Document Vector = {weight1, weight2, …… ,weight N}

同样我们把查询语句看作一个简单的文档，也用向量来表示。

Query = {term1, term 2, …… , term N}

Query Vector = {weight1, weight2, …… , weight N}

我们把所有搜索出的文档向量及查询向量放到一个N维空间中，每个词(term)是一维。

如图：
在这里插入图片描述

我们认为两个向量之间的夹角越小，相关性越大。

所以我们计算夹角的余弦值作为相关性的打分，夹角越小，余弦值越大，打分越高，相关性越大。

相关性打分公式如下
在这里插入图片描述

举个例子，查询语句有11个Term，共有三篇文档搜索出来。其中各自的权重(Term weight)，如下表格。

在这里插入图片描述

于是计算，三篇文档同查询语句的相关性打分分别为：

在这里插入图片描述

于是文档二相关性最高，先返回，其次是文档一，最后是文档三。

到此为止，我们可以找到我们最想要的文档了。

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
向量空间模型算法(Vector Space Model)

概念介绍向量空间模型（VSM：Vector Space Model）由Salton等人于20世纪70年代提出，并成功地应用于文本检索系统。VSM概念简单，把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，直观易懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。M个无序特...
复制链接

扫一扫

专栏目录

Winyar Wen CSDN认证博客专家 CSDN认证企业博客

码龄6年

95: 原创

13万+: 周排名

119万+: 总排名

8万+: 访问

: 等级

1512: 积分

44: 粉丝

33: 获赞

49: 评论

251: 收藏

私信

关注

热门文章

分类专栏

大数据 40篇
热门技术 10篇
Java 26篇
Web 3篇
运维 6篇
微服务 4篇
算法题 14篇
人工智能 2篇
数据库 3篇
python 1篇

最新评论

MYSQL个人学习笔记——数据库介绍、mysql安装配置、数据库操作指令、备份恢复、mysql函数、例题分享
CSDN-Ada助手: 学大数据一定要学 Kafka 么？
深入学习hadoop框架MapReduce（案例代码分享）
CSDN-Ada助手: Hadoop 数据存储和处理的架构有哪些优化策略，如何保证性能和可扩展性？
Hive处理案例——Zebra业务数据清洗
CSDN-Ada助手: 有时候小数据的作用比大数据大，你怎么看呢？
人工智能算法之梯度下降法、协同过滤、相似度技术、ALS算法（附案例分析）、模型存储与加载、推荐系统的冷启动问题
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。
数据挖掘与机器学习
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。