网页入链数:指向这个网页的链接数。链接倾向于指向受欢迎的网页。
网页链接举例:
<a href="www.bing.com">bing主页</a>, “bing主页”即锚文本,可以利用anchor text 挖掘个人/机构主页。
页面的page rank,即浏览该页面的概率。
举例:
网页A,B,C;A链向B及C;B链向C;C链向A。页面C的page rank,即浏览页面C的概率,依赖于A和B的page rank。
假设点击页面链接的概率相等,即页面的page rank平均分配给所有的向外链接。设页面C的page rank为PR(C):
对于任何网页u的page rank:Bu表示指向u的网页集合,Lv表示网页v中包含的外向链接。
假设N个网页,假设有(入)的概率以等概率随机进入某个网页,有(1-入)的概率通过链接该网页的网页链接等概率进入该网页:
网页的page rank和具体的查询无关,搜索引擎优先选择page rank高的网页,对hot query影响更大。
page rank的问题:
流行网站包含的链接以让另一个网站更加重要,网页作者为增强网页,可能会在流行的博客的评论部分,分布指向他们的网页链接。
“rel=nofollow”, <a rel=nofollow href="">example</a>,该属性可以让搜索引擎忽略该标记。