大数据课程K10——Spark的Vector_Space_Model算法

本文详细介绍了Spark中的向量空间模型(Vector Space Model,VSM),包括算法概述、权重计算、向量间夹角余弦的计算,以及相关性打分公式,帮助读者理解如何利用VSM进行文档相似度计算。
摘要由CSDN通过智能技术生成

文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州

 ▲ 本章节目的

⚪ 掌握Spark的 Vector Space Model 向量空间模型算法;

⚪ 掌握Spark的向量之间夹角余弦;

一、Vector Space Model 向量空间模型算法

1. 概述

向量空间模型(VSM:Vector Space Model)由Salton等人于20世纪70年代提出,并成功地应用于文本检索系统。

VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。

M个无序特征项ti,词根/词/短语/其他每个文档dj可以用特征项向量来表示(a1j,a2j,…,aMj)权重计算,N个训练文档AM*N= (aij) 文档相似度比较

向量空间模型 (或词组向量模型) 是一个应用于信息过滤,信息撷取,索引以及评估相关性的代数模型。

此算法可以用于文档排名,学习此算法需要具备3个基础:

1. 倒排索引表。

2. 相似度的概念。

3. TF-IDF算法。

正向索引:文档 ->词汇的索引,比如:

1.txt -> hello 2; spark 5; AI 1;

2.txt -> world 1; hadoop 6;

... ...

方向索引(倒排索引):词汇 -> 文档的索引,比如:

hello -> 1.txt 2; 3.txt 10;

spark -> 1.txt 5; 4.txt 7;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值