笔者在课后作业中遇到了向量空间模型的概念题,对课堂重温后有了一些简单的理解,在此分享。
向量空间模型(VSM)
向量空间模型(Vector Space Model,VSM),是基于代数的一种常用模型。向量空间模型试图克服布尔模型的缺陷,它采用非布尔向量来表示文档和查询,采用非二值实数表示相似度,这样输出结果就可以按照文档和查询的相似程度来进行排序了,客观上实现了部分匹配。
采用向量空间模型最明显的效果就是能提供排序的结果集,这个结果集比通过布尔模型得到的结果集要合理得多,从某种意义上说,能更好地匹配用户的信息需求。
TF-IDF方法
在相似度量上常用TF-IDF权重方法:
TF 因子 (term frequency, 词频),文档dj中的词ki出现的频率。
IDF因子 (inverse document frequency ,逆向文件频率),文档集合中词ki出现的频率的倒数。
课后问题问及了TF的归一化与IDF取对数的目的,解答这个需要首先理解TF-IDF