原创 Google对付桥页作弊的方法 - 供百度开发人员参考 收藏

新一篇: Google出了在线网页编辑器 | 

前言:
Zac 提起Google在他的搜索排名算法里面正在加入更多的用户行为方式,我完全同意该观点。
认识与研究Google很久了,对Google的搜索行为有一个基本认识: Google的排名算法不会局限于任何一种因素,不会忽略任何一种因素,尤其重视自然因素。
很多人会笑话这样的认识,认为是空谈,然后,我作为一名开发人员,完全认为采用如此的策略是明智的。

引入更多用户行为方式的基石在于Google ToolBar, 这是Google最近花大金钱捆绑在Dell机器上的玩意儿。 它能做什么? 能统计用户的查看网页的行为。

什么是桥页? 桥页如何作弊?
桥页就是在第三方网站上做一个页,堆砌了大量的关键词,让该页在搜索引擎收录里排在前边,如第一页,然后,在桥页中注入转向代码,用户来到该页,实际上却去了另外一页。
这里,第三方网站一般是一些BLOG,这些BLOG允许一些转向HTML代码及Javascript代码,包括blog.donews.com。

搜索引擎的无奈:
百度主要依靠人工防作弊,在自动封站上不如Google。但在上边的作弊方法中,百度人工也不敢封第三方网站,如blog.donews.com,因为它是无辜的。
百度也不敢人工封目标网站,因为它也可能是无辜的。 (有人恶意栽赃,不是它要的)

这种作弊在百度里非常泛滥,但在Google中却几乎绝种。
http://www.baidu.com/s?ie=gb2312&bs=%CF%E0%C9%F9%D4%DA%CF%DF%B2%A5%B7%C5&sr=&z=&cl=3&f=8&wd=%C1%F5%B5%C2%BB%AA%CF%E0%C6%AC&ct=0
排名第一的: http://qoito.blogbus.com/files/1142761371.htm
被导向到: http://mms.zzling.com/?

这意味着,异常热门的关键字,很多都被桥页占满了。换句话,百度在被强奸。

Google是如何对付的呢?
能够想象的有两种方法:
方法一: 分析网页中的转向代码,遇见可疑的转向代码,降低权重。
方法二: 利用分析用户的行为,对于停留不超过N毫秒的页,降低权重。

方法一的可行性是有的,但不能完全解决问题。原因在于Google现在并不分析嵌入的JS,对JS本身也不重视。作弊高手可以写复杂的转向代码来欺骗Google。

我所能相信的有效方法应该是方法二:
分析用户的行为,对于停留不超过N毫秒的页,做spam标识。

能想象到的更完善的算法可以是:
如果A页是来自于搜索引擎,下边的算法启动:
如果A页被A用户浏览且不超过N毫秒,然后马上导向到B页。则标识 A-->B为 桥页spam。
如果被标识次数大于N,N可以是3,且来自于不同的IP,就可以降低A页的权重了,但不应该去动B页。

这里,降低而不是封杀是安全且可靠的,基于以下考虑:
1) 竞争对手恶意利用,来封杀对手。
2) A页有人浏览,但每次被用户马上忽略,则应该为不重要的垃圾页。
3) B页不能封杀是因为B页可能是无辜的。

前边说过,这方法的基石在于,Google Toolbar,用它来统计用户的自然行为。
百度同样有Baidu Toolbar,由于上边的算法并不需要基于海量的数据统计即可有效,因此,即使基于baidu toolbar当前的安装量,也是可以进行的。

转载请注明原来路。

 

发表于 @ 2006年07月27日 21:34:00|评论(loading...)|编辑

新一篇: Google出了在线网页编辑器 | 

评论

#banmuhuangci 发表于2006-07-28 08:58:00  IP: 220.171.250.*
如果是使用框架呢?或则使用打开弹出新窗口呢?
#zzz 发表于2006-07-28 10:19:00  IP: 58.38.90.*

------------------------------------------------------
顺便推荐一下朋友的网站
可以竞猜彩票、财经、超女、各项体育比赛等,无所不猜,免费猜题,猜中有奖,奖品丰厚(有笔记本、数码相机、ipod等),网址:
http://www.guess365.com/index.asp?user=zeus
#du 发表于2006-07-28 09:50:00  IP: 222.90.74.*
百度先强奸了自己的用户,自己被强奸也是活该。
#鍝堝搱 发表于2006-07-28 17:46:00  IP: 221.219.116.*
百度不是这样吧, 我从来不用百度的,感觉百度就是交了钱的排在前面,呵呵.
#dennis 发表于2006-07-28 20:33:00  IP: 58.23.92.*
baidu我更多用来搜索音乐和小说,而技术性的还是要用google。简单的,分别在baidu和google输入java进行搜索,baidu第一页几乎都是培训之类,google就完全不同了。。
#jerojero 发表于2006-07-29 10:13:00  IP: 219.233.51.*
强烈鄙视baidu,不给钱的直接封网站,呵呵我们公司就直接被封了,然后每天还接到十几个baidu销售人员的电话,深有体会啊,不过反正我现在全部用的google,别说我不爱国,实在是baidu做得太过分了,再次强烈鄙视
#steven 发表于2006-07-29 15:35:00  IP: 219.134.54.*
baidu ,是什么?
买烧饼的吗?
#ghty5y 发表于2006-07-29 18:09:00  IP: 221.226.214.*
现代秦秽百毒, 早死早好!
#百度是个大垃圾 发表于2006-07-29 16:55:00  IP: 222.188.33.*
我的网站也被百度封了,是因为没有续费。百度太垃圾了。我现在从不用百度。百度的绝大部分股东都是外国人,百度还自吹民族产业,我看是美国的民族产业吧。百度把中国人都当作傻子来看吧。
#呃. 发表于2006-07-29 19:17:00  IP: 218.86.59.*
我朋友做的网站都提交到了YAHOO上,在百度要给钱才行啊.就像前面的一位仁兄说,在百度交的钱越多好像就越排前哦.管你关键字有多少,有钱就好办事啊.....
#kobesoft 发表于2006-07-29 21:22:00  IP: 221.223.55.*
一点技术含量都没有,瞎分析
#六世软件 发表于2006-07-29 23:41:00  IP: 221.218.167.*
baidu ,是什么?
买烧饼的吗?

答: 不是.
baidu 是做"广告发布器"的
#kelvin 发表于2006-07-29 23:31:00  IP: 219.139.175.*
下MP3用百度
其他的算了吧,还是用google,用百度就能搜到一堆信息垃圾!

最讨厌什么事都和爱国扯上的愤青!
#ST 发表于2006-07-30 13:14:00  IP: 222.212.130.*
还有SB以为垃圾百度是国产公司?
发表评论  


当前用户设置只有注册用户才能发表评论。如果你没有登录,请点击登录
Csdn Blog version 3.1a
Copyright © iamlt