[#0x002C] IR经典模型之向量模型

最新推荐文章于 2023-07-17 14:56:12 发布

iteye_1299

最新推荐文章于 2023-07-17 14:56:12 发布

阅读量267

点赞数

分类专栏： Information Retrieval

本文链接：https://blog.csdn.net/iteye_1299/article/details/81788874

版权

2 篇文章 0 订阅

订阅专栏

1. 向量模型同样将dj和qcc同级计算，采用的同级方式是扩展qcc到t维

2. 相似度计算

依旧有dj = {w1j, w2j, …, wtj}，但这里的wij不再是二元值，而是一个加权值；同样定义qcc = {w1, w2, ..., wt}，这里的wi也是一个加权值
sim(dj, qcc) = dj • qcc / (|dj| * |qcc|)， dj • qcc为向量点乘运算
一次检索的过程是根据qcc来和所有dj ∈ D(文档集合)，计算出一组sim值，然后依据sim值来排序D，返回前排部分文档(可自定义阈值，比如返回sim值大于0.5的或是D排序后的前30%文档)
|dj|² = ∑i (wij²)；|qcc|² = ∑i (wi²)，对于一次检索而言，|qcc|值对排序不会产生任何影响；dj • qcc = ∑i (wij * wi)
term freqency(词频)：表示词ki在文档dj中出现的频率，TFij = Nij / ∑t Ntj，Nij为词ki在文档dj中出现的次数，∑t Ntj为所有词在文档dj中出现的次数和，即dj包含的总词数。若词ki的TF值越高，则说明ki越能代表文档dj
inverse doucument frequency(逆向文档频率)：设|Di| = {d|d∈D且ki∈d}，|Di|值即表示文档集D中有这么多篇文档包含了词ki；IDFi = log(|D| / |Di|)，|D|为文档集中的文档个数。若IDFi值越大，说明D中包含ki的文档越少，从而ki用来区分D中不同文档的能力也就越大。
wij = TFij * IDFi
wi = (½ + ½ * TFij) * IDFi