VSM - 向量空间模型

一个文本表现为由标点和文字组成的字符串,由字成词,由词生短语,由短语组成句子,进而是段落,节,篇章。要使计算机能够高效的处理真实文本,必须找到一个可行的并且理想的表示方案。这种表示一方面需要真实反映文档内容,另一方面要对不同文档有区分能力。
向量空间模型(Vector Space Model)是一种自然语言处理中常用的模型,它是G.Salton等人在二十世纪60年代提出的,最早用在SMART信息检索系统中。VSM涉及如下基本概念:
文档(document):通常是文档中具有一定规模的片段,从句子到篇章,都可看做一个文档。
项、特征项(term, feature term):特征项是VSM中不可分的语言单元,可以是字,词,短语等。一个文档内容被看成是它含有特征项所组成的集合,表示为:Document=D(t1,t2,…tN),其中t(k)是特征项,1<=k<=N。
项的权重(term weight):对于含有n个特征项的文档D(t1,t2,t3,...,tN),每一个特征都依据一定的原则被赋予一个权重w(k),表示它们在文档中的重要程度。这样一个文档D可用它含有的特征项及其特征项对应的权重所表示,D=D(t1,w1; t2,w2; ... ; tN,wN),其中w(k)就是特征项t(k)的权重,1<=k<=N。
一个文档在上述约定下可以看成是n维空间中的一个向量,这就是向量空间模型。值得注意的是,VSM有如下的特点:
1.各个特征项互异
2.各个特征项无先后顺序关系(即,不考虑文档的内部结构)
这样,t(k),k∈(1,N),就是一个N维坐标系,w(k)就是坐标值,一个文本就是这个N维空间中的一个向量。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值