信息检索——向量空间模型(Vector Space Model)

TF:

tf 即 term frequency, 表示一个 term t 出现在 document d 中的次数,这是文档中一个很重要的概念。出现次数更多意味着重要程度越高,但是需要注意的是,相关度的提高并不是和次数的提高成同比的。因此通常tf需要做如下的处理

w1= log10(tf+1)

这样做就是要弱化次数对于相关度的影响


DF/IDF:

df 即 document frequency,表示一个 term 在整个文档集中出现的频率。与 tf 相反,一个 term 的重要程度是随着它在语料库中出现的频率成反比的。比如 and,or 等词在几乎所有文档中都出现,那么这些词的意义就很弱,而一些专业词汇只在几篇文档中出现过,显然意义更加重要。idf 就是 df 取倒数,这里只是为了表示方便。

同样,为了弱化频率的效果,我们也做如下处理

w2= log10(N/df) 其中N为文档总数,df是文档term在所有文档集合中出现的次数。


有了上面的tfidf作为权重,我们可以很简单的计算所有词的权重,然后用一个N维的向量来表示一个文档,同样用N维的向量来表示query,query中如果没有对应的term,则该维权重为0。

于是,利用我们的数据知识,我们可以知道,在同样的空间中,如果两个向量的夹角越小,说明两个向量越相似,反之两个向量越无关。因此使用cosine定理,我们可以很简单地得到向量之间的相似度



Worked example. We now consider the query best car insurance on a fictitious collection with $N=1{,}000{,}000$ documents where the document frequencies of auto, best, car and insurance are respectively 5000, 50000, 10000 and 1000.

termquerydocumentproduct
 tfdfidf$\mbox{w}_{t,q}$tfwf$\mbox{w}_{t,d}$ 
auto050002.3
math.log(1000000/5000, 10)
0
0 * 2.3
110.410
best1500001.3
math.log(1000000/50000, 10)
1.3
1 * 1.3
0000
car1100002.02.0
1 * 2.0
110.410.82
insurance110003.03.0
1 * 3.0
220.822.46

ref: http://nlp.stanford.edu/IR-book/html/htmledition/queries-as-vectors-1.html



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值