VSM模型
向量空间模型(VSM,Vector Space Model)由Gerard Salton和McGill等在1969年提出。该模型将文本内容转换为易于数学处理的向量形式,并表示为多维空间中的一个点,把对文本内容的处理简化为向量空间中向量运算,使问题的复杂度大为降低使得各种相似计算和排序成为可能。
在向量空间模型中,文本空间被看作是由一组正交词条矢量所组成的矢量空问,每篇文本 d 表示为其中的一个范化矢量 V(d)=(t1 , w1(d) ,…, tn , wn(d)),其中ti 为词条项,wi(d) 表示词条ti 在文本d 中的权值,用于显示向量 ti 在文本 d 中的重要程度。可以将文本 d 中出现的所有词条作为 ti,也可以要求 ti 是 d 中出现的所有短语,从而提高内容特征表示的准确性。wi(d) 一般被定义为词条ti 在文本d 中的出现频率 tfi(d) 的函数,wi=f(tfi(d)),常用的 f 函数有布尔函数、平方根函数、对数函数、TF-IDF函数等。