google怎么做(2.相似网页算法)

/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/

GOOGLE 相似网页功能算法

 

中科院软件所 张俊林

 time stamp:         2006年4月3日

 

我们使用GOOGLE在检索结果列表里面每个检索结果会有”相似网页(Similar pages)”的链接,主要提供和所列出的页面相似的网页,那么这个功能是如何实现的?

GOOGLE(http://googlechinablog.com/2006/04/blog-post_10.html)利用链接分析来提供相关网页的功能,其基本思路是:如果一个页面和另外一个页面相似,那么其链接关系也是相似的.其算法如下:

(1)   用户选定某个页面A,希望查看相关网页;

(2)   首先根据页面链接关系构建两个页面集合,第一个页面集合是有外向链接(out link)指向页面A的所有互联网页面,我们假设这个集合包含两个网页{B,C},也就是说BC页面都有链接指向页面A,同时我们假定B有链接指向D页面,C有链接指向E页面;

(3)   第二个页面集合是第一个页面集合里面的页面外向链接指向的所有页面;上面的例子就是集合{D,E};

(4)   第一个页面集合指向第二个页面集合的每个链接都赋予一个权重值,权重的设定有不同的方法,基本原则是如果是同一个网站的不同页面的链接,那么链接权重要降低.

(5)   第二个页面集合的页面根据指向自己的链接的权重值之和来确定页面分值,按照分值大小顺序排序输出

 

看起来比较繁琐,实际上基本想法很简单,一句话概况就是:谁的链接指向我?那么这些指向我的页面还指向谁?

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值