1. 经典模型的前提概念
- 以ki表示indexing item,K = {k1, k2, …, kt}为整个系统的indexing item集,即整个系统只有t个indexing item
- 针对文档dj,wij为ki在dj中的权值,若ki没有在dj中出现,则wij = 0
- dj可以表示为dj = {w1j, w2j, …, wtj}
- gi(dj) = wij
2. 布尔模型中的查询q
- q由若干ki、连接词AND、OR、NOT构成,比如q = ka AND (kb OR (NOT kc))
- q可以写成一个析取范式qdnf = (1, 1, 1) ∨(1, 1, 0)∨(1, 0, 0),三元组(1, 1, 1)称为qdnf的一个合取分量qcc
3. 布尔模型中的相似度
- if 存在qcc ∈ qdnf满足对任意ki,gi(dj) = wij = gi(qcc),则sim(dj, q) = 1,即文档dj与查询q相关
- else sim(dj, q) = 0,即文档dj与查询q无关
4. 关于gi(qcc)的理解
- 考虑到dj是个t元组,形如dj = {1, 0, 1, 1, ..., 0, 0},“对任意ki,gi(dj) = wij = gi(qcc)”从实质上就是dj = qcc,但是:
- qcc中并不会包含所有t个indexing item,设|qcc| = n,一般情况下t != n,所以可以从以下两个方面理解
- (1)扩展qcc到t元
- (2)截取(或者叫投影)dj到n元
- 举例:dj = (w1j = 0, w2j = 1, w3j = 1),qcc = (w2 = 1, w3 = 1)。扩展dj(投影dj到(w2, w3)),dj' = (w2j = 1, w3j = 1) = qcc;扩展qcc,qcc' = (w1 = 0, w2 = 1, w3 = 1) = dj