大数据课程K10——Spark的Vector_Space_Model算法

伟雄

于 2023-08-28 19:08:50 发布

阅读量207

点赞数

文章标签：大数据 spark 分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013955758/article/details/132438313

版权

本文详细介绍了Spark中的向量空间模型（Vector Space Model，VSM），包括算法概述、权重计算、向量间夹角余弦的计算，以及相关性打分公式，帮助读者理解如何利用VSM进行文档相似度计算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章作者邮箱：yugongshiye@sina.cn 地址：广东惠州

▲ 本章节目的

⚪ 掌握Spark的 Vector Space Model 向量空间模型算法；

⚪ 掌握Spark的向量之间夹角余弦；

一、Vector Space Model 向量空间模型算法

1. 概述

向量空间模型（VSM：Vector Space Model）由Salton等人于20世纪70年代提出，并成功地应用于文本检索系统。

VSM概念简单，把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，直观易懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。

M个无序特征项ti，词根/词/短语/其他每个文档dj可以用特征项向量来表示（a1j,a2j，…，aMj）权重计算，N个训练文档AM*N= (aij) 文档相似度比较

向量空间模型（或词组向量模型) 是一个应用于信息过滤，信息撷取，索引以及评估相关性的代数模型。

此算法可以用于文档排名，学习此算法需要具备3个基础：

1. 倒排索引表。

2. 相似度的概念。

3. TF-IDF算法。

正向索引：文档 ->词汇的索引，比如：

1.txt -> hello 2; spark 5; AI 1;

2.txt -> world 1; hadoop 6;

... ...

方向索引（倒排索引）：词汇 -> 文档的索引，比如：

hello -> 1.txt 2; 3.txt 10;

spark -> 1.txt 5; 4.txt 7;

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。