向量空间模型
这是信息检索中的最基本的方法之一。用在向量空间模型(Vector Space Model)中。向量空间模型在信息检索的应用中经常用到。
举个列子:
例如,现在有一组文档d1, d2, d3, 我们要在其中搜索 “Car Insurance”。对于Car和Insurance这两个词,我们知道它们在文档上的权重,如下:
d1 d2 d3
Car 0.13 0.8 0.99
Insurance 0.99 0.6 0.13
我们把这张表映射到一个二维的平面上,X轴Insurance,Y轴为Car。将d1,d2,d3以从原点出发的向量的形式标注在平面上,就可以看到三个向量。
而查询向量q为(0.71,0.71)(Normalized)。我们将q这个向量和其他三个向量做比较,同q夹角最小的那个文档向量就是我们要找的和“Car Insurance“相关性最大的文档。
向量相似度
我们使用文档同查询之间的余弦相似度或归一相关系数(Normalized Correlation Coefficient)来计算查询向量和文档向量之间的相似程度。
2 b continued...