改变世界的9大算法--PageRank

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/L_rollback/article/details/52764861

“PageRank”一语双关:既是网页排名的算法,也是该方法的主要发明者 拉里 ▪ 佩奇.

首先来了解一下”超链接把戏“。超链接,在1945年就已经出现了,是搜索引擎用来排名的重要工具之一,而且是谷歌PageRank技术的基础。

理解PageRank的第一步,就是先了解一下”超链接把戏“的想法。

还是以举例子来说明:


链接到”张三的菜谱“只有一个页面,链接”李四的菜谱“有3个界面,所以在搜索的时候,后者排名要比前者高。

但是,计算机却并不知道,假设我们要的是评价好的网页,但是李四虽然排名靠前,但是都是”差评“,而张三的菜谱是”好评“,但是排名却靠后,就和我们搜索的结果预期值不一致了,那么如何解决这一问题?

解决方案:"权重把戏"

把来自高“权重”网页的链接排名要比来自低“权重”的排名要靠谱的多。

假如链接到张三的菜谱网页是我的主页(不是主厨),而链接到李四的网页是主厨的主页,那么明显来自后者的结果比前者可靠。

但是问题又来了,计算机不知道谁是主厨?那么就引入权重了:


假设所有网页的初始权重都是1,如果X和Y网页链向Z网页,那么Z网页权重=X网页权重+Y网页权重

具体权重如图中所示。

但是问题又来了,如果出现网页循环,那么问题又该如何解决?


C、D各为1,加权到A,A->B->E->A,那么就形成一个循环,显然这个可以增加一个网页的排名。

为有效解决这个问题,引入了“随机访问者把戏”,下面两张图是在1000次和100万模拟访问的结果:



我们先来看一下"超链接把戏"的主要思想:一个有许多链入链接的网页应该有高排名。这在随机访问者模型中也适用,因为有许多连入,那么被访问的概率也较大。

再来看看“权重把戏”:和来自低权重网页的连入链接相比,一个来自高权重网页的连入链接应该更能证明一个网页的排名。同样适合随机访问者模型,因为比起点击一个不知名网站的链接人们更倾向与点击一个知名网站的链接。

(注意:随机访问者模式同时将超链接和权重把戏相结合。)

随机访问者把戏的美妙在于,和权重把戏的不同,不管超链接有没有形成循环,随机访问者把戏都能完美的运行。

实际中的PageRank,超链接传输的合法权威性的争议,以及人们滥用超链接把戏,人为的提高自己的网页排名。值得一提的有,在商业中判定排名的算法有很多,技术在进步。

好了,今天就到这里,明天将给大家带来改变世界的9大算法--公钥加密(用明信片传输秘密)


展开阅读全文

没有更多推荐了,返回首页