0 背景
在上一篇的用CHI检验的文章中我们已经获得了特征词,这些特征词在某一篇文章中出现的频率是不一样的,也可以说词与词的重要性是不一样的。为了标示特征词语的重要程度,就必须赋权重。在本篇文章中,我们使用的方法是TFIDF。
1 VSM向量空间模型
哎?不是讲TFIDF吗,怎么会有VSM向量空间模型呢。是这样,在经过CHI提取到特征词后,然后再用TFIDF给特征词赋权值以后,这样就会组成一个向量:(term1,权重值;term2,权重值;........;termn,权重值),n为特征词的数量。这样的向量就是VSM。每篇文章都可以表示为这样的向量。
比如说吧,对所有的训练样本经过CHI检验后,提取到的特征词有(“篮球”,“范冰冰”,“航空母舰”,“NBA”,“股票”,“综艺”,“娱乐圈”)这些词,当然真实的特征词肯定是成千上万的,在这里只是简单地举一个例子。当有一篇