Antispam,反垃圾,反作弊

关键词: 搜索引擎优化 反作弊 antispam

Antispam 就是反垃圾、反作弊的意思,spam的意思是:兜售信息[邮件,广告,新闻,文章],非索要信息。与垃圾邮件(junk mail)同义。Anti就是反对、去除的意思。这个词汇多用于反垃圾邮件。也用于形容搜索引擎反垃圾信息。Spam和antispam在搜索引擎诞生之 日起就开始了无休止的搏杀。因为有巨大的商业利益掺杂其中。

2003年上半年之前中文搜索引擎基本上没有大规模的搜索引擎作弊。2002年的时候百度的讨论区有搜索引擎爱好者讨论搜索技巧、搜索引擎相关知识会讨论到优化、友好,但是范围非常小,气氛主体是搜索技巧。也有部分人和公司做搜索引擎优化的,但是仅仅是针对某几个词汇做链接以获取在google的排名收取企业费用。当时我们还讨论过作弊和友好的界限定义很难区分的问题,现在想想,当时这种问题对中国人来说根本没有必要讨论。

2003下半年中文搜索引擎作弊大面积泛滥,一时间“google、百度被爆奸了”甚至有人可以包揽某类关键词前几十页的所有条目,有人声称可以将任何词汇做到百度的前几名……,到2005年已经是全民作弊了。

这时候,antispam成为中文搜索引擎的重点工作之一了。搜索引擎反作弊从开始以来一直都是处于被动防守状态,这是因为必须有人作弊,才能反作弊,几乎不可能预知作弊的新方式来预先antispam。而且也不存在破窗理论,因为一个网站作弊在某搜索引擎无效,但是会在其它搜索引擎有效。长期无效,但是短期有效。

Antispam的目的是为了改善用户体验,丢弃垃圾信息。垃圾信息包括重复无穷次的信息和没有任何价值的信息,internet本来就存在很多的垃圾页面和垃圾信息和重复信息,再加上有很多人为的制作垃圾信息,那搜索引擎反垃圾就凸现出重要性了。

反作弊其实不难,搜索引擎能管理数十亿的信息,那管理这么点垃圾信息还不是很轻松的事情?因为作弊具有共性,抓住这些共性就可以解决一类问题,一类问题一类问题的解决,作弊的影响就可以降到最低。极大程度的增加作弊的成本和风险。

方法大致可以如下:建立每个网页和网站的spam系数,这个系数和这些参数相关:
1.建立常用spam词表,分级别,分类。
2.通过常用spam词表分析相关词汇重复频率、密度、位置、分布情况。设定多个阀值,每个阀值进行处理不同的处理。
3.链接数量、质量、锚文本分析、spam链接工厂分析,进行spam判断。
4.桥页,跳转页面、鬼文等各种常用作弊手法分析。
5.搜索结果页面判断
6.重复信息判断……
当spam系数超过某个阀值的时候这个网页就被删除或者降权、当网站spam系数(网站spam系数来源于网站的页面spam系数加权)达到某个阀值的时 候这个网站就进入spam管理人员的待处理信息列表中,spam管理人员进行人工判断,如果确实作弊那就把权值降到0%,或者直接删除。
如果更深入一些可以再做:
1.更深入的重复信息判断(重复信息的识别,可以识别到段,甚至句。对互联网上重复了1000次的spam的信息降低权值索引或不索引)
2.基于视觉的网页块分析,对网页视觉中心的内容进行加权,非视觉中心的内容降权或者根据spam系数非视觉中心的内容不索引入库,
3.简单的语法分析网页的正文内容是否符合正常的自然语言描述
4.统计用户的点击行为、浏览行为进行分析。统计网站各类词汇的排名情况,找出不正常的网站……
5.结构化信息抽取,针对链接的描述语言作为锚文本,同时降低锚文本的权值。(在垂直搜索引擎中更有效)
6.其它一些技术来凸出优质信息。


还存在一些问题:
1.比如我的文章在我的小站发布了,搜索引擎去重后留下的是其它网站转载的信息……(百度把我这个页面去重掉了20060121)
2.反作弊后有很多域名不存在了,但是有用户会需要这些网站?如何解决这个用户体验?建一个spam网页索引?
3.最大的问题是误判很正常,也很多,那误判怎么办?作弊网站的恢复机制?
还有就是spam的标准问题可能在不久的将来会成为一个焦点。
4.本文是随笔,会不断更新,如转载请保留原文链接,谢谢!
5.这篇文章我写了两次,感觉现在这个版本没有第一个版本的好。写两次是因为我在表单直接填写,结果session过期了,导致数据丢失,浪费了我一个小时。
6.按照spam的定义,百度的竞价排名也是spam。广告在恰当的时候是搜索引擎内容的补充,那有没有可能利用垃圾页面?

 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值