一种快速高效的文本分类方法(二)

向量空间法(VSM)

在过去的40多年中,许多关于信息检索的研究工作都是围绕着Salton提出的向量空间法展开的,它也是被广泛使用的Smart系统的基础。在向量空间法中,每个文档被看成一个词袋,然后被表示成词条权重的向量:Di = (Wi1,Wi2,Wi3,...,Win),其中D表示一个文档,n表示词条空间的维数。每一个词条的权重代表了该词条在文档中的重要性。通常我们使用tf-idf方法或者它的一些变形来表示词条的权重。两个文档的相似度用它们对应向量的夹角的余弦值来表示。尽管向量空间法最初是用于信息检索,它也被广泛地用于许多分类系统。此时每个类用一个中心向量代表。分类时通过检查待分类文档和这些中心向量的相似度,把它分到最相似的中心向量所代表的类中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值