给定查询的网页综合排名

最新推荐文章于 2024-07-04 16:54:26 发布

longjing1113

最新推荐文章于 2024-07-04 16:54:26 发布

阅读量494

点赞数

分类专栏：自然语言处理文章标签： PageRank TF-IDF

自然语言处理专栏收录该内容

21 篇文章 0 订阅

订阅专栏

给定查询，有关网页的综合排名=网页排名（PageRank）*相关性（TF-IDF）

网页质量

对于一个特定的查询，搜索结果的排名取决于两组信息，关于网页的质量和这个查询与每个网页的相关性信息。

PageRank算法--衡量网页质量

简单说，民主表决。

一个网页被很多其他网页链接，它的认可度高，可靠性高，计算排名时，需要给予较大的权重。

二维矩阵相乘的问题，用迭代方法解决。

Bi=A*Bi-1

B为一维向量，bi标识第n个网页的排名

A为矩阵，amn表示第m个网页指向第n个网页的链接数。

网页排名对于零概率或小概率事件需要进行平滑处理。

利用稀疏矩阵计算技巧简化计算量——>发明了Mapreduce并行计算工具。

http://hi.baidu.com/mshltkiygobbrtq/item/772ac099020562f42916479e

Google 不断的重复计算每个页面的 PageRank。如果您给每个页面一个随机 PageRank 值（非0），那么经过不断的重复计算，这些页面的 PR 值会趋向于正常和稳定。这就是搜索引擎使用它的原因。

这个方程式引入了随机浏览的概念，即有人上网无聊随机打开一些页面，点一些链接。一个页面的PageRank值也影响了它被随机浏览的概率。为了便于理解，这里假设上网者不断点网页上的链接，最终到了一个没有任何链出页面的网页，这时候上网者会随机到另外的网页开始浏览。

为了对那些有链出的页面公平，q = 0.15(q的意义见上文)的算法被用到了所有页面上, 估算页面可能被上网者放入书签的概率。

所以，这个等式如下:

${\rm PageRank}(p_i) = \frac{q}{N} + (1 -q) \sum_{p_j} \frac{{\rm PageRank} (p_j)}{L(p_j)}$

p₁,p₂,…,p_N是被研究的页面，M(p_i)是链入p_i页面的数量，L(p_j)是p_j链出页面的数量，而N是所有页面的数量。

PageRank值是一个特殊矩阵中的特征向量。这个特征向量为

$\mathbf{R} = \begin{bmatrix} {\rm PageRank}(p_1) \\ {\rm PageRank}(p_2) \\ \vdots \\ {\rm PageRank}(p_N) \end{bmatrix}$

R是等式的答案

$\mathbf{R} = \begin{bmatrix} {q / N} \\ {q / N} \\ \vdots \\ {q / N} \end{bmatrix} + (1-q) \begin{bmatrix} \ell(p_1,p_1) & \ell(p_1,p_2) & \cdots & \ell(p_1,p_N) \\ \ell(p_2,p_1) & \ddots & & \\ \vdots & & \ell(p_i,p_j) & \\ \ell(p_N,p_1) & & & \ell(p_N,p_N) \end{bmatrix} \mathbf{R}$