8.这就是搜索引擎:核心技术详解 --- 网页反作弊　

enlyhua

于 2020-08-26 16:58:03 发布

阅读量768

点赞数 2

分类专栏：大型网站核心技术

本文链接：https://blog.csdn.net/enlyhua/article/details/108242427

版权

大型网站核心技术专栏收录该内容

32 篇文章 8 订阅

订阅专栏

8.1　内容作弊　
	内容作弊的目的是通过精心更改或者调控网页内容，使得网页在搜索引擎排名中获得与其网页不相称的高排名。搜索引擎排名一般包含了内容相似性和链接重要性计算，内容作弊者
主要针对的是搜索引擎排序算法中的内容相似性计算部分，通过故意加大目标词频，或者在网页重要位置加入与网页内容无关的单词来影响搜索结果排名。

　　8.1.1　常见内容作弊手段　
		1.关键词重复
		2.无关查询词作弊
		3.图片alt标签文本作弊
		4.网页标题作弊
		5.网页重要标签作弊
		6.网页元信息作弊

　　8.1.2　内容农场（Content　Farm）　
		内容农场运营者廉价雇佣大量自由职业者，支持他们付费协作，但是协作内容普遍内容低下，很多文章都是通过复制稍加修改来完成的。但是他们会研究搜索引擎的热门搜索词，并
	有机的将这些词汇添加到内容中，这样，当普通搜索用户在搜索时，会被吸引进内容农场的网站，通过大量低质量的内容吸引流量，内容农场可以赚广告费。

　8.2　链接作弊　
		所谓链接作弊，是网站拥有者考虑到搜索引擎排名中利用了链接分析技术，所以通过网页之间的链接关系，或者操作页面之间的链接锚文字，以此来增加链接排序因子的得分，并影响
	搜索结果排名的作弊方法。
		1.链接农场
			为了提高网页的搜索链接排名，链接农场构建了大量互相紧密链接的网页集合。
		2.google轰炸
			锚文字是指向某个网页的链接描述文字，这些描述信息往往体现了被指向网页的内容主题，所以搜索引擎往往会在排序算法中利用这一点。作弊者通过精心设置锚文字内容来诱导
		搜索引擎给与目标网页较高排名，一般作弊者设置的锚文字和目标网页内容没什么关系。
		3.交换友情链接
		4.购买链接
		5.购买过期域名
			有些过期域名本身的PageRank排名是很高的。
		6."门页"作弊
			"门页"本身不包含正文内容，而是由大量链接构成的，而这些链接往往会指向同一个网站内的页面，作弊者通过制造大量的"门页"来提升网站排名。

　8.3　页面隐藏作弊　
	页面隐藏作弊通过一些手段隐瞒搜索引擎爬虫，使得搜索引擎爬取的页面内容和用户点击查看的页面内容不同，以这种方式来影响搜索引擎的搜索结果。
	1.IP地址隐形作弊
		网页拥有者在服务端记载搜索引擎爬虫的ip地址列表，如果发现是搜索引擎在请求页面，则会推送给爬虫一个伪造的网页内容，而如果是其他ip地址，则会推送其他内容。
	2.http请求隐形作弊
		根据 User Agent 判断是否为搜索引擎爬虫，是的话，推送不同的页面内容。
	3.网页重定向
	4.网页内容隐藏
		通过一些特殊的html标签设置，将一部分内容显示为用户不可见，但是对搜索引擎来说是可见的。

　8.4　Web　2.0作弊方法　
		1.博客作弊
			常见的博客作弊有3种：作弊博客，博客评论作弊和TrackBack作弊。
			作弊博客是作弊者申请博客空间，而写作的博客内容用于诱导搜索引擎或者博客读者转到作弊者希望提升排名或者营销的网页。
			博客博主发布内容，往往允许观看博客的用户发表评论，有些作弊者利用这一点，在博客评论内容里推广产品或者增加指向推广网页的链接地址。
			TrackBack机制是博客作者之间互相引用通知的机制。比如博客A发表了一篇博文，之后博客B看到这篇文章后，发表了一篇类似的博文，并在文中使用链接引用博客A的博文，
		如果二者的博客系统都支持TrackBack 协议，则博客系统会自动在博客A的文章后增加指向博客B新博文的链接，使用自动 TrackBack 群发软件，向大量博文发出 TrackBack
		链接，这样就增加了作弊页面被访问的机会。
		2.点评作弊
		3.标签(tag)作弊
		4.SNS作弊
			一种典型的SNS作弊手段是用户个人描述信息作弊。作弊者建立一个虚假的个人描述，在其他描述部分利用色情等信息吸引他人。
		5.微博作弊
			一种是作弊者大量关注他人博客，很多人出于礼貌也会将其作为关注着，在吸引到一定的关注着后，作弊者会发布广告信息。
			另外一种是利用微博搜索平台，作弊者密切关注热门关键词，之后大量发布包含热门关键词的微博，里面包含一些推广信息。

　8.5　反作弊技术的整体思路　
		从基本思路看，可以将反作弊手段大致分为3种：信任传播模型，不信任传播模型和异常发现模型。其中前2种技术模型可以进一步抽象为"链接分析"一章提到的子集传播模型。

　　8.5.1　信任传播模型　
		信任传播模型，思路如下：在海量的网页数据中，通过一定的技术手段或者人工半人工手段，从中筛选出部分完全值得信任的页面，也就是肯定不会作弊的网页，算法以这些网页
	作为出发点点，赋予白名单内的网页节点较高的信任度分值，其他页面是否作弊，要根据其和白名单内节点的链接关系来确定。白名单内节点通过链接关系将信任度分值向外扩散传播，
	如果某个节点最后得到的信任度分值高于一定的阈值，则认为没有问题，低的话就认为是作弊网页。

　　8.5.2　不信任传播模型　
		与信任传播模型的最大的区别在于：初始的页面子集不是值得信任的页面节点，而是确认存在作弊行为的页面集合。

　　8.5.3　异常发现模型　
		异常发现模型是一个高度抽象化的算法框架模型，其基本假设认为：作弊网页必然存在有异于正常网页的特征。

　8.6　通用链接反作弊方法　
		指的是这种反作弊方法不需要针对某种具体的作弊方式来做特征分析，并根据分析结果去构建有针对性的算法。不论采取哪种连接作弊方法，通用作弊
	方法都对其有效。

　　8.6.1　TrustRank算法　
		TrustRank 算法属于信任传播模型，基本遵守信任传播模型的流程，即算法流程如下2步组成：
		1.确定值得信任的网页集合
		2.将信任分值从白名单网页按照一定方式传播到其他网页

　　8.6.2　BadRank算法　
		BadRank 据传是 google 采用的反链接作弊算法。它是一种典型的不信任传播模型，即首先构建作弊网页集合。

　　8.6.3　SpamRank　
		SpamRank　是一种典型的符合异常发现模型的反作弊方法。

　8.7　专用链接反作弊技术　
		专用的链接反作弊技术则是非常有针对性的设计算法。
　　8.7.1　识别链接农场　
　　8.7.2　识别Google轰炸　

　8.8　识别内容作弊　

　8.9　反隐藏作弊　
		常见的隐藏作弊方式包括页面隐藏和网页重定向。
　　8.9.1　识别页面隐藏　
		页面隐藏的本质特征是向搜索引擎爬虫和用户推送不同的内容页面。所以一个直观的识别这种作弊方式的方法就是对网页做两次抓取，第一次是正常的搜索引擎爬虫抓取，
	第2次抓取则是模拟人工访问网页的方式抓取。如果两次抓取到的内容有较大差距，则会被认为是作弊。

　　8.9.2　识别网页重定向　
		重定向页面比较容易识别，目前大多数搜索引擎对于采取了重定向的网页都会有相应的降权惩罚。但是重定向的网页未必一定是作弊网站。
		
　8.10　搜索引擎反作弊综合框架

enlyhua

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
8.这就是搜索引擎:核心技术详解 --- 网页反作弊　

　8.1　内容作弊　　　8.1.1　常见内容作弊手段　　　8.1.2　内容农场（Content　Farm）　　8.2　链接作弊　　8.3　页面隐藏作弊　　8.4　Web　2.0作弊方法　　8.5　反作弊技术的整体思路　　　8.5.1　信任传播模型　　　8.5.2　不信任传播模型　　　8.5.3　异常发现模型　　8.6　通用链接反作弊方法　　　8.6.1　TrustRank算法　　　8.6.2　BadRank算法　　　8.6.3　SpamRank　　8.7　专用链接反作弊技术　.
复制链接

扫一扫