Google对付桥页作弊的方法

 来源 http://groups.google.com/group/csew 

前言:
Zac
提起Google在他的搜索排名算法里面正在加入更多的用户行为方式,我完全同意该观点。
认识与研究Google很久了,对Google的搜索行为有一个基本认识:
Google的排名算法不会局限于任何一种因素,不会忽略任何一种因素,尤其重视自然因素。
很多人会笑话这样的认识,认为是空谈,然后,我作为一名开发人员,完全认为采用如此的策略是明智的。

引入更多用户行为方式的基石在于Google ToolBar,
这是Google最近花大金钱捆绑在Dell机器上的玩意儿。
它能做什么? 能统计用户的查看网页的行为。

什么是桥页? 桥页如何作弊?
桥页就是在第三方网站上做一个页,堆砌了大量的关键词,让该页在搜索引擎收录里排在前边,如第一页,然后,在桥页中注入转向代码,用户来到该页,实际上却去了另外一页。
这里,第三方网站一般是一些BLOG,这些BLOG允许一些转向HTML代码及Javascript代码,包括blog.donews.com。

搜索引擎的无奈:
百度主要依靠人工防作弊,在自动封站上不如Google。但在上边的作弊方法中,百度人工也不敢封第三方网站,如blog.donews.com,因为它是无辜的。
百度也不敢人工封目标网站,因为它也可能是无辜的。
(有人恶意栽赃,不是它要的)

这种作弊在百度里非常泛滥,但在Google中却几乎绝种。
http://www.baidu.com/s?ie=gb2312&bs=%CF%E0%C9%F9%D4%DA%CF%DF%B2%A5%B7%C5&sr=&z=&cl=3&f=8&wd=%C1%F5%B5%C2%BB%AA%CF%E0%C6%AC&ct=0
排名第一的: http://qoito.blogbus.com/files/1142761371.htm
被导向到: http://mms.zzling.com/?

这意味着,异常热门的关键字,很多都被桥页占满了。换句话,百度在被强奸。

Google是如何对付的呢?
能够想象的有两种方法:
方法一:
分析网页中的转向代码,遇见可疑的转向代码,降低权重。
方法二:
利用分析用户的行为,对于停留不超过N毫秒的页,降低权重。

方法一的可行性是有的,但不能完全解决问题。原因在于Google现在并不分析嵌入的JS,对JS本身也不重视。作弊高手可以写复杂的转向代码来欺骗Google。

我所能相信的有效方法应该是方法二:
分析用户的行为,对于停留不超过N毫秒的页,做spam标识。

能想象到的更完善的算法可以是:
如果A页是来自于搜索引擎,下边的算法启动:
如果A页被A用户浏览且不超过N毫秒,然后马上导向到B页。则标识
A-->B为 桥页spam。
如果被标识次数大于N,N可以是3,且来自于不同的IP,就可以降低A页的权重了,但不应该去动B页。


这里,降低而不是封杀是安全且可靠的,基于以下考虑:
1) 竞争对手恶意利用,来封杀对手。
2)
A页有人浏览,但每次被用户马上忽略,则应该为不重要的垃圾页。
3) B页不能封杀是因为B页可能是无辜的。

前边说过,这方法的基石在于,Google
Toolbar,用它来统计用户的自然行为。
百度同样有Baidu
Toolbar,由于上边的算法并不需要基于海量的数据统计即可有效,因此,即使基于baidu
toolbar当前的安装量,也是可以进行的。

另外,Google Analytis等产品,也是用户数据来源。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值