[#0x002C] IR经典模型之向量模型

1. 向量模型同样将dj和qcc同级计算,采用的同级方式是扩展qcc到t维

 

2. 相似度计算

  • 依旧有dj = {w1j, w2j, …, wtj},但这里的wij不再是二元值,而是一个加权值;同样定义qcc = {w1, w2, ..., wt},这里的wi也是一个加权值
  • sim(dj, qcc) = dj • qcc / (|dj| * |qcc|), dj • qcc为向量点乘运算
  • 一次检索的过程是根据qcc来和所有dj ∈ D(文档集合),计算出一组sim值,然后依据sim值来排序D,返回前排部分文档(可自定义阈值,比如返回sim值大于0.5的或是D排序后的前30%文档)
  • |dj|² = ∑i (wij²);|qcc|² = ∑i (wi²),对于一次检索而言,|qcc|值对排序不会产生任何影响;dj • qcc =  ∑i (wij * wi)
  • term freqency(词频):表示词ki在文档dj中出现的频率,TFij = Nij / ∑t Ntj,Nij为词ki在文档dj中出现的次数,∑t Ntj为所有词在文档dj中出现的次数和,即dj包含的总词数。若词ki的TF值越高,则说明ki越能代表文档dj
  • inverse doucument frequency(逆向文档频率):设|Di| = {d|d∈D且ki∈d},|Di|值即表示文档集D中有这么多篇文档包含了词ki;IDFi = log(|D| / |Di|),|D|为文档集中的文档个数。若IDFi值越大,说明D中包含ki的文档越少,从而ki用来区分D中不同文档的能力也就越大。
  • wij = TFij * IDFi
  • wi = (½ + ½ * TFij) * IDFi
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值