国际站反作弊系列之 — 反作弊介绍

2013-08-15 阿里技术嘉年华

文/王涛

 


【导读】本文将国际站在反作弊方面的经验总结出来,希望给大家一些参考。目前面临的难点分为技术、非技术两个方面。技术方面是如何更好的将机器学习模型实践应用,非技术的方面是网站的整体信息质量并不完善。


一、简介


    国际站特指阿里巴巴的两个英文网站,分别是信息平台(alibaba.com)以及交易平台(aliexpress.com)。从本文开始,我将陆续就这两个网站的主要的作弊类型一一作介绍。

    

    搜索反作弊起源于Google,用户为了使得自己网站增加被用户搜索到的可能性,会想尽一切非正当的办法来提高自己网站排名,最终目的就是想通过不劳而获走捷径的方法来赚取一定的潜在的经济利益。

   
    阿里巴巴国际站作为一家电子商务网站,既有传统的搜索引擎的作弊类型,又有自身的一些特点,其作弊的意图更加明显,得到的经济利益和效果短期内会非常显著。

    

    网站的作弊主体主要是卖家,显而易见,卖家必定想让自己的产品尽可能的让买家搜索到,从而提高产品被购买的可能性。诚信的卖家会通过增加自己的产品质量以及更好的服务来吸引买家,但这往往需要较长时间,而且效果可能并不如预期,也就是投入与产出不成比例。另外一些卖家在与网站长期打交道的过程中逐渐发现了一些规律,也就是通过某些作弊手段能提高自己产品被买家搜索到的可能性,于是增加了他们产品被展示的机会,潜在的获取了经济利益。

    

    国际站反作弊小组作为搜索引擎的一个补充,实际上与搜索引擎是密不可分的,如果把搜索引擎比作一个公平公正的文明的社会,买家与卖家是这个社会中的公民,那反作弊则是这个文明社会维持治安与秩序的警察,其专门识别并打击这样一些破坏网站秩序,不按规则出牌的卖家,保证每一位卖家在网站能公平公正的进行经营,每一位买家能买到合适的商品。


二、作弊类型


    网站作弊类型种类繁多,每种类型实际上体现了我们网站搜索引擎算法与人工智慧的较量,正所谓魔高一尺,道高一丈,卖家在与网站打交道的过程中总结出了一些提高产品曝光的方法,而这些方法并不是通过提高产品或服务质量来得到,而是一些作弊的方法,利用这些方法来达到提高自己产品曝光的目的,从而取得一定的经济利益。网站搜索引擎针对这些方法会利用各种算法来进行识别并予以打击,但总是会有漏网之鱼,卖家又不断寻找其他新的方法,于是算法与作弊的卖家之间正在进行一场旷日持久,永远没有结局的战争。


    国际站目前的作弊类型主要有以下几种:


    重复铺货:重复铺货是对搜索引擎排序算法的挑战,排序会将好的产品排到前面去,但其并未考虑到产品之间的关系,卖家利用这个漏洞,发布很多完全相同的产品,也就是把一个产品重复的发布多次,如果其中一个产品能够排名靠前,那与这个产品重复的产品都会相应排到前面去,大量重复产品占据了页面,从而提高产品被买家看到的可能性,带给买家的体验则是相当糟糕,因为没有选择,全是重复产品,如下面的例子。


 


 

    类目错放:类目错放同样是一个利用排序漏洞的例子,排序使得与query相关的类目下的产品有更多的机会曝光,于是卖家则想尽办法将产品放在某个热门类目下,达到增加曝光的机会。其具体表现是产品被放在不应该放的类目,比如iPhone Case放在Mobile Phone类目下。

    

    类目错放主要动机就是卖家希望通过将产品放在热门类目下达到增加曝光的目的。类目错放有恶意的类目错放,比如产品放在完全不相干的类目下,也有因为卖家对类目体现不了解,不知道放在哪个类目下造成,前者恶意的行为需要我们去惩罚,而后者无意的行为需要我们去引导,看下面的例子,手机壳放在了Mobile Phones类目下。




    标题滥用:标题滥用是利用了搜索算法中关键词匹配的漏洞,搜索引擎简单的将query与产品标题进行匹配,匹配到则直接展示,于是卖家在填写标题时故意填写很多与产品完全不相干的热门词汇,企图寄希望于买家在搜索对应关键词时能够看到自己发的这个offer。比如卖家明明卖的是衣服,因为iPhone这个关键词搜的比较多,是热门的query查询词,于是就在衣服的标题中填写iPhone,网站在买家搜索iPhone的情况下就极有可能向买家展示这件与iPhone完全不相干的产品。给买家造成非常不好的体验!如下面到了例子,卖家使用大量与本产品并不十分相干的关键词,企图通过这种方法来被买家用对应关键词搜索到。



    标题堆砌,超高超低价,属性欺诈,点击欺诈,刷关键词,换宝贝,重复开店,反馈欺诈,虚假价格等等都是网站现在已经发现的作弊类型,我们也已经有了相应的方法对这些作弊类型予以处理,有力的弥补了搜索引擎的不足。


三、反作弊技术


    反作弊技术的重点是如何准确以及高效识别作弊类型,一个好的实用的反作弊系统应该遵循以下两个设计原则: 

    

    原则1:实用的搜索引擎ANTI-SPAM系统应该允许核心算法公布,并且在核心算法公布之后不会导致现有ANTI-SPAM系统的失效。


    原则2:实用的搜索引擎ANTI-SPAM系统应该结合技术和非技术的手段形成一个综合防治系统。两者交互影响形成有效的互相促进作用。

    

    其中原则1是为了避免提供搜索引擎服务的公司陷入以下疲于奔命的状态:核心算法被泄漏,spamer找到应付对策,搜索引擎服务公司更换核心算法,核心算法被泄漏,形成恶性循环。而原则2则是尽可能采取各种可能的手段更全面准确的判别作弊类型。

    

    从实际来看,原则一通常很难做到,更实用的方法是采取保密措施,防止核心算法泄露,从而维持一段较长的时间。原则2的非技术手段通常是必须的,对应我们国际网站的则是人工干预平台,其作用是在算法发生误判或漏判时,由人工快速予以纠正,是对算法的必要补充!

    

    国际站反作弊小组在网站反作弊过程中积累了一定的经验,将分布式计算,大数据量处理,自然语言处理、规则系统以及机器学习等技术比较好的应用在了反作弊系统中。

    

    在重复铺货与重复开店中,面对网站几亿的offer量与成百上千的店铺,如何快速的识别出所有重复的offer和店铺,需要分布式计算的支持。

    

    在类目错放中,使用自然语言处理技术识别卖家填写的offer的产品词,使用机器学习模型RandkSVM为卖家推荐合适类目、使用决策树模型对卖家填写的offer及其所填写的类目进行一个快速的类目正确性判断。

    

    标题堆砌采用规则加机器学习模型的方法,采用规则判断识别精准,但覆盖面小,使用机器学习模型扩大覆盖面,但准确性可能达不到要求,两者互为补充。

    

    标题滥用采用纯规则的方法对标题滥用的offer进行识别,通过对现有网站中发现的badcase总结规则,将规则添加到标题滥用的规则系统中,实现准确识别,快速响应的目的。


四、反作弊技术目前面临的难点


    反作弊系统目前面临的难点主要分为技术的和非技术的两个方面。技术的方面主要是如何更好的将机器学习模型应用到电子商务网站中,非技术的方面则是网站的整体信息质量并不完善,如类目体系不完善,卖家填写的offer质量参差不齐,人尚且无法判断,更遑论机器了!

    

    技术方面的难点根据实际项目总结如下:

    

    1)大数据量处理以及实时性要求的难点,重复铺货项目中面对日益快速增长的offer量,如何快速的实现聚类,如何准确高效的识别重复产品,如何实时识别卖家填写offer是否是重复offer等等都亟待解决!

    

    2)机器学习模型的参数训练以及标注的难点,类目错放中使用决策树对卖家填写的offer以及类目进行正确性判断,为保证准确性,需要人工标注大量的数据,人力资源的昂贵以及有限的时间决定了不可能在短期内训练处一个准确的完美的模型,即使有人能够标注,但由于人的主观性,标注的准确性往往也难以得到保证。

   
    3)在面对不同的问题时如何选择模型的难点,这往往没有标准答案,同一个问题往往可以采用多种不同的模型进行识别,如类目推荐,可以采用rankSVM模型,也可以采用贝叶斯模型,每种模型的数据表现以及效果如何都很难以进行预测,需要经验和知识的积累!

    

    4)算法评测的难点,使用某一种算法解决完某一问题后,往往面临着需要如何评测算法效果的问题,常见的评测方法是准确率和召回率,但有些项目确实没办法评测,如点击反馈欺诈,因为很难人为的去判断一个点击是否是点击欺诈!

    

    5)领域知识的难点,使用机器学习模型解决问题,通常需要对该问题所属领域具有专家级的知识,否则算法准确性难以保证。如类目错放,需要类目运营专家对offer进行合理的分类,算法才能准确的判断,如果类目本来就混乱不堪,算法是不可能识别准确的。

 

 

【嘉年华预告】


    这是一期有关反作弊的系列文章,今天带来的文章是国际站在反作弊方面的一些经验。明天还有一篇关于类目错放的文章,接下来还有淘宝、一淘在反作弊方面的经验总结,敬请关注。


    如果你觉得本文有料,请如下图所示随手点击右上方按钮,分享给你的朋友圈,让伙伴们都来关注技术嘉年华哦:),学习从来都不是自己一个人的事情,不是么?


  



【嘉年华推荐】


    前天七夕累了一个晚上,昨天休息了一整天,今天要不来玩玩游戏?


    阿里巴巴2014校园招聘,其中前端岗位的在线笔试,在8月20日将统一开始。在此之前呢,工程师为同学们准备了一个不是打飞机的在线游戏等你来练练手,这个游戏名为《拯救斯诺克》。


    工作了一段日子的同学没空的话,也可以推荐给自己的师弟妹来玩儿,怎么分享?上边的图已经说了 :)


    http://ued.campus.alibaba.com/

    

    短链接:http://t.cn/zQnp4te    


    核心提示1:截至8月18日11:00之前成功通关并且表现优异的同学,将有机会收到一封惊喜邮件!

    

    核心提示2:请玩游戏的时候,不要像今日题图一样。

    


--

微信名称:阿里技术嘉年华

微信号:alibabatech

简介:传播原创高质量的技术内容

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值