论文--Topic-Sensitive PageRank

最新推荐文章于 2022-10-06 15:42:24 发布

weixin_30888413

最新推荐文章于 2022-10-06 15:42:24 发布

阅读量709

点赞数

文章标签： python 人工智能

原文链接：http://www.cnblogs.com/No-body/p/4207223.html

版权

背景

原有的PageRank方法：通过web上链接结构信息得到页面之间相对的重要性，和特定的查询内容无关

论文涉及到的其他算法

HITS
Hilltop，处理常见的流行查询 popular query
基本的PageRank算法，我们使用如下迭代来计算ranks得分$$\forall{v}Rank_{i+1}(v)=\sum_{u\in{B_{v}}}Rank_i(u)/N_u$$直到rank向量达到一个稳定的阈值

论文关注点

选取与查询相关的多个话题的PageRank向量集合，通过计算得到一个更精确的与特定话题相关的查询结果，每次都给各个页面赋予一个和此特定话题相关的得分
新方法保证了基于链接的评分与查询挂钩，并且有较小的实时查询处理时间
利用Open Directory和一元语言模型来对话题进行表示
我们可以从各个维度来得到某个用户某个查询q的context，譬如说查询历史记录，层次目录结构，用户保持的书签等。

论文研究方法

概要：每个页面都有一个得分的集合，针对每一个特定的topic

步骤：

找到一系列基本的topic集合，计算出一系列的PageRank Vectors。基本的类集合是从ODP数据集中得到。
第二步是在查询时进行的。 1). 首先确定查询q的上下文q'（分为两种情况）； 2). 计算得到每一个类在q'下的条件概率$$P(c_j|q')$$(利用贝叶斯公式);在使用$$P(c_j)$$时可以根据用户而决定特定的值 3). 对于每个文档d，我们可以计算他的query-sensitive得分 $$s_{qd}=\sum_jP(c_j|q')\cdot{rank_{jd}}$$

实验结果

数据来源：the latest Web crawl from the Stanford WebBase, 2001

4.1 Similarity Measure for Induced Rankings

评价指标：$$OSim(\tau_1,\tau_2)$$,衡量两个方法之间的URLs的重复的多少 Kendall's $$\tau$$ distance measure: is the probability that $\tau_1'$$ and $\tau_2'$$ agree on the relative ordering of a randomly selected pair of distinct nodes $$(u,v)\in{U\times{U}}$$