搜索引擎web spam类型及防治策略(version 0.9)

本文探讨了搜索引擎中Web Spam的各种类型,如内容作弊、链接作弊和信息隐藏,并介绍了对应的防治策略,包括链接分析、内容检测和自动识别方法。通过对目标网页、辅助排名网页的分析,提出了一些常见的作弊手段,以及如何通过优化算法和人工干预来防止这些作弊行为。
摘要由CSDN通过智能技术生成

/*版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明 .*/

 搜索引擎web spam类型及防治策略(version 0.9)

中科院软件所 张俊林

url:http://sonata.iscas.ac.cn/zhjl

 2005年7月

    搜索引擎的目的是发现和用户查询”相关”而且”重要”的页面.一般来说网页是否和用户查询相关是根据内容判断的,而重要性是根据链接分析得到的.web spam通常从内容作弊,链接作弊,信息隐藏三个方面来进行. 往页面加入大量关键词,以对用户不可见的颜色设置字体.这样用户使用不可见的字符串搜索就可能搜索到无关的作弊网页.这种方式主要是基于内容的;分析Pagerank等搜索引擎使用的链接分析技术,构造很多其它网页,并在网页指向作弊网页,这样作弊网页的入度大量增加,导致链接分析失效,排名增高.这种方式主要是基于链接的.

     Web spam对于搜索引擎有很大的危害:一方面降低搜索引擎的结果有效性.大量不相关页面占据重要排名位置.另外一个方面, 增加搜索引擎的无效索引,.这样对于每个查询都会耗费不必要的时间来处理这些垃圾索引.

       Web spam 和email spam类似,对于某个网页是否真正的spam网页的判断多少是有主观因素的,这也是造成难以防治该类问题的一个核心难点.而目前大多数anti-spam技术都基于以下两个假设:假设一: 非作弊网站一般不会有指向作弊网站的链接(这个假设是有漏洞的,比如honey pot作弊方式,但是大多数情况下是成立的).假设二. 作弊网站往往会增加指向非作弊网站的链接.

     本文下面的内容讲述目前常用的一些作弊方法以及比较常见的防治策略.首先需要定义几个概念:

概念一.目标网页----就是作弊者采取一系列措施希望该网页能够在搜索引擎排名中得到比其应该得到的排名高的网页.

概念二:辅助排名网页---作弊者为了提高某个或者某些网

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值