【2005/WWW】Object-Level Ranking: Bringing Order to Web Objects

最新推荐文章于 2022-02-15 13:32:28 发布

梦家

最新推荐文章于 2022-02-15 13:32:28 发布

阅读量624

点赞数

分类专栏： machine learning 文章标签：人工智能 ObjectRank

本文链接：https://blog.csdn.net/DreamHome_S/article/details/107591089

版权

machine learning 专栏收录该内容

20 篇文章 1 订阅

订阅专栏

原文链接：https://dreamhomes.github.io/posts/202007261112.html

论文链接：http://www.ra.ethz.ch/CDstore/www2005/docs/p567.pdf

摘要

网页检索的主要任务是按照应答用户查询的相关性和流行度对相关对象进行排名。由于不同网页对象间存在不同的关系，传统的PageRank模型在计算对象的流行度（Popularity）时不再有效。本文提出一种对特殊域中对象级排名的链接分析模型，明确的对每种的对象关系分配一个流行度传播因子（PPF，Popularity Propagation Factor），研究不同种类关系的不同PPF如何影响网页对象的流行度排名，同时提出一种自动搜索PPF的方法。

算法过程

网页链接构成的图称为网页图，这种图为同质图且算法PageRank和HITS可以通过分析链接来对网页进行排序。网页中不同种类的对象通过相互联系形成了对象图，由于图中包含不同对象及其不同的关系，明显PageRank算法不适用且未考虑对象间关系的影响，例如Author多的Paper其流行度不一定高。网页对象图如下所示：

文章中提出一种综合考虑对象的网页流行度和对象间关系的计算网页对象流行分数的排序算法 PopRank。该方法是对PageRank算法的扩展，通过给不同种类的链接关系分配一个PPF。如上图的文献对象关系图所示，需要三个PPF： $\gamma_3$ , $\gamma_2$ , $\gamma_1$ 来表示三种类型的关系：cited-by, authored-by, and published-by。通过人工分配PPF显然不现实，因此文中提出一种基于模拟退火的方法（simulated annealing algorithm）来自动学习每种类型关系的PPF，为了减小模拟退火算法的搜索空间，文中仅选用子图来计算PPF。

上图表示类型为 $X_i$ 对象的网页链接。由于Web中对象信息是嵌入在网页中的，因此可以根据PageRank来计算网页流行度（Web Popularity）。

利用向量 $R_{EX}$ 来表示对象 $X$ 的网页流行度， $R_X$ 表示通过网页链路图或对象关系图找到对象 $X$ 的概率。为了计算对象的流行度分数，PopRank算法综合考虑了网页对象流行度及其对象关系，使用以下公式来计算类型 $X$ 对象的PopRank分数 $R_X$ ：
$R_{X}=\varepsilon R_{E X}+(1-\varepsilon) \sum_{\forall Y} \gamma_{Y X} M_{Y X}^{T} R_{Y}$

其中：

$X=\left\{x_{1}, x_{2}, \ldots, x_{n}\right\}, Y=\left\{y_{1}, y_{2}, \ldots, y_{n}\right\}$ 表示类型为 $X$ , $Y$ 的对象集合。
$R_X$ 和 $R_Y$ 表示类型为 $X$ , $Y$ 的流行度分数。
$M_{YX}$ 为邻接矩阵。 $m_{y x}=\frac{1}{N u m(y, x)}$ 如果对象 $x, y$ 之间存在边，否则为0， $N u m (x, y)$ 表示对象 $y$ 到类型为 $X$ 对象间的链接数量。
$\gamma_{Y X}$ 表示对象类型 $X$ 与对象类型 $Y$ 间的PPF， $\sum_{\forall Y} \gamma_{Y X}=1$ 。
$R_{EX}$ 表示对象类型 $X$ 的网页流行度。
$\varepsilon$ 表示衰减因子。