向量空间模型(VSM)介绍

向量空间模型(VSM:Vector Space Model)是一个应用于信息过滤,信息撷取,索引 以及评估相关性的代数模型,
由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。
VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。
当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。

在向量空间模型中,文本泛指各种机器可读的记录。用D(Document)表示,
特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,
文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1<=k<=N。


例如一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为D(a,b,c,d)。
对含有n个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度。即D=D(T1,W1;T2,W2;…,Tn,Wn),简记为D=D(W1,W2,…,Wn),
我们把它叫做文本D的词权向量表示。其中Wk是Tk的权重,1<=k<=N。


D1的特征项为a,b,c,d,权值分别为30,20,20,10,D2的特征项为a,c,d,e,权值分别为40,30,20,10,
则对应的文档D(D1,D2)的总体特征为(a,b,c,d,e),D1的向量表示为D1(30,20,20,10,0),D2的向量表示为D2(40,0,30,20,10),则根据夹角余弦公式:

计算出来的文本D1与D2的相似度是0.86。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值