向量空间模型(VSM)介绍

最新推荐文章于 2022-12-11 17:43:38 发布

置顶 smile678910

最新推荐文章于 2022-12-11 17:43:38 发布

阅读量2.2k

点赞数 2

本文链接：https://blog.csdn.net/smileboy007/article/details/9385011

版权

搜索引擎专栏收录该内容

11 篇文章 1 订阅

订阅专栏

向量空间模型(VSM：Vector Space Model)是一个应用于信息过滤，信息撷取，索引以及评估相关性的代数模型，
由Salton等人于20世纪70年代提出，并成功地应用于著名的SMART文本检索系统。
VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。
当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。

在向量空间模型中，文本泛指各种机器可读的记录。用D（Document）表示，
特征项（Term，用t表示）是指出现在文档D中且能够代表该文档内容的基本语言单位，主要是由词或者短语构成，
文本可以用特征项集表示为D(T1，T2，…，Tn)，其中Tk是特征项，1<=k<=N。

例如一篇文档中有a、b、c、d四个特征项，那么这篇文档就可以表示为D(a，b，c，d)。
对含有n个特征项的文本而言，通常会给每个特征项赋予一定的权重表示其重要程度。即D＝D(T1，W1；T2，W2；…，Tn，Wn)，简记为D＝D(W1，W2，…，Wn)，
我们把它叫做文本D的词权向量表示。其中Wk是Tk的权重，1<=k<=N。

D1的特征项为a，b，c，d，权值分别为30，20，20，10，D2的特征项为a，c，d，e，权值分别为40，30，20，10，
则对应的文档D(D1,D2)的总体特征为(a,b,c,d,e),D1的向量表示为D1(30,20,20,10,0),D2的向量表示为D2（40，0，30，20，10），则根据夹角余弦公式:

计算出来的文本D1与D2的相似度是0.86。

smile678910

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
向量空间模型(VSM)介绍

向量空间模型(VSM：Vector Space Model)是一个应用于信息过滤，信息撷取，索引以及评估相关性的代数模型，由Salton等人于20世纪70年代提出，并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量
复制链接

扫一扫