#One paper per week# Search Engine Click Spam Detection Based on Bipartite Graph Propagation

论文题目:Search Engine Click Spam Detection Based on Bipartite Graph Propagation
论文地址:http://dl.acm.org/citation.cfm?id=2556214  

论文大体内容:
作者在前人研究[1]的基础上,通过几个方面的改进,提出了一种更好的搜索引擎检测点击欺诈(click spam)的方法。

1、众所周知,搜索引擎展示的结果会因为CTR(Click-Through-Rate)而受影响,所以就有人会在这方面作弊以让自己的网站排前面。为了让搜索引擎展示更好的结果,那避免作弊就显得非常重要了。


2、前人[1]运用了马尔科夫链模型(Markov chain model)来计算转移概率(transition probability),其中Markov chain model是根据正常点击来建立的,所以如果是不正常的点击(click spam),那么转移概率就会很低,从而区分出哪些是click spam。


3、作者在前人基础上,把action objective的处理改进了,加入了两个action之间的time interval这个新feature,以期达到更好的结果。


4、数据来源:作者获得了2011年12月约24亿条搜索记录日志(来自于作者一直强调的"a popular Chinese commercial search engine",估计是搜狗-_-),然后主要使用其中一天(2011.12.7)的数据,训练以及评测model。


5、作者把action分为6类(详见论文);time inverval分为4类(详见论文);cheating mode分为5种(详见论文),然后设了两个假说:(1)一个用户的好多个session都是cheating session,那么可以认为该用户的其它session也是cheating session。(2)符合同一模式(pattern)的好多个session都是cheating session,那么可以认为该模式下的其它session也是cheating session。不断根据user-session-pattern之间的关系(双向图),找出click spam的user,session,pattern。


6、评测(evaluation)的时候,发现:
(1)前人的研究能识别出1.7%的click spam,准确率为90%,作者的研究能识别出2.6%的click spam,准确率为97%,提高了不少。
(2)周一到周三的click spam比例明显比周四到周日的高,所以作者认为是"Perhaps it is because the cheating users or company are more active at the beginning of
the week",^_^(挺搞笑的结论)。
(3)click spam的time inverval明显比正常的小(众所周知)。
(4)根据NDCG(Normalized Discounted Cumulative Gain,衡量搜索引擎质量的指标),作者对click spam者过滤后,搜索引擎展示的结果有了不错的提升。


P.S.据称该方法已经应用到搜狗搜索引擎上了,挺好的一项研究。


参考资料:
[1]、http://dl.acm.org/citation.cfm?id=1367617


以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值