搜索引擎反作弊的三个模型

最新推荐文章于 2024-04-19 23:36:50 发布

qq_28701205

最新推荐文章于 2024-04-19 23:36:50 发布

阅读量1k

点赞数

文章标签：搜索引擎设计搜索数据技术

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28701205/article/details/46416431

版权

诸如链接农场、内容农场、关键词堆砌等都是十分常见的作弊方式，为了维持良好的搜索展现结果，搜索引擎自然就会有反作弊进行应对。

　　那么，搜索引擎会通过怎样的方式进行反作弊处理呢?

　　总的来说，会有以下三种思路：

　　1、信任传播模型

　　前段时间同事A跟我说了一件事儿，他的姐姐B在国外留学，然后一天B在qq上跟A说洗衣服把手机，银行卡什么的全部洗了，让A给B的老妈打电话寄点钱来，A立刻执行，B的老妈也深信不疑，在即将打出的那一刻，B的一个电话，挽救了即将发生的损失。

　　细思恐极。

　　其实，这也是一个信任传播模型，直接在QQ上跟B的妈妈说，B的妈妈必然不会完全相信，但是经由A的口一传，就立刻不一般。因为，A在B的妈妈的信任名单中。

　　OK，由此而来，就是一种反作弊的思路。

　　在海量的网页数据中，通过技术或人工的手段，获取值得完全值得信任的网页设置为白名单。白名单中网页的信任值由链接顺着向外扩散而递减或者衰减。然后，设定一个值，高于此值，是OK的网页，低于此值，不好意思，你作弊了。

　　2、不信任传播模型

　　这个，其实跟第一种思路是及其类似的，找到一群作弊的网页，然后通过链接关系分析不信任分值。

　　唯一一点需要注意的是，信任分值，是通过链接正向传递的，不信任分值是通过链接反向传递的。举个例子：

　　A为垃圾页面，则指向A的链接B是垃圾页面的概率比A指向的链接C的概率要大的多。

　　3、异常发现模型

　　所谓异常，可以是作弊页面的特征，也可以是正常页面的特征。

　　集合了这些特征，再由此来判定一个页面是否作弊或者是否正常，也是蛮OK的一件事情。

　　来个简单的识别链接农场的小例子：

　　链接农场中的链接关系，是由设计者精心布置的，由此一来，必然会有些违背自然的特征，诸如：

　　1)、出链与入链的统计分布规律：正常的页面出链与入链满足Power-law分布，作弊的链接违反该分布;

　　2)、作弊的链接的Url网址往往过长，包含较多的点画线及数字等;

　　3)、诸如入链及出链的增长率等，正常网页和作弊网页在这些变化模式上是不同的。

http://www.chenxids.com/news/html/?392.html

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
搜索引擎反作弊的三个模型

出链与入链的统计分布规律：正常的页面出链与入链满足Power-law分布，作弊的链接违反该分布
复制链接

扫一扫

qq_28701205 CSDN认证博客专家 CSDN认证企业博客

码龄9年

2: 原创

207万+: 周排名

139万+: 总排名

1655: 访问

: 等级

36: 积分

0: 粉丝

0: 获赞

0: 评论

3: 收藏

私信

关注

热门文章

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

服务号微信订阅号是否要合并了？服务号要被集中到订阅列表中

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。