文本特征提取之VSM介绍

文本特征提取之VSM介绍

VSM(向量空间模型)是一种文本特征表示的方法,在文本特征提取领域中,文本特征表示是提取文本中的特征的一个前提。在处理文本的时候,如果我们将一堆文档集输入,计算机并不知道文本的意思和其中词的含义,并且这样也不方便我们从里面找出各个文本本身的特征,因此,我们需要将文本以一种便于计算机处理的方法来表示出来。这一个表示方法曾经经过前辈门的激烈讨论过,最后留下来的,也是最实用的就是VSM模型。
矢量空间模型的基本思想是将文本文档看成是一组特征项(T 1,T 2, T 3 …T n)构成,这些特征项根据不同的具体分类算法会有些不同,但是主要是提取出文档中最能反映该文档特征的词。对于每一个特征项T,都根据其在文档中的重要程度(常用来确定权重的算法有TF-IDF算法)赋予一个权重W i。这样,一个文本的特征表示就可以看作一个n维的坐标系,W 1,W 2,W 3 。。。W n为对应的坐标值。
通过VSM模型的表示之后,我们的文档集合变成了一个矩阵,每一行代表一个文档,每一列代表这个文档中的某个特征项。当然经过这一步提取出来的矩阵一般是具有很高的维数的,并不适合于进一步的计算处理,因此为了解决高维危机很多学者也提出了不同的解决方法。不过经过了这样的表示,现实世界的文档模型被转换到了矩阵的形式,方便了计算机的处理。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值