国际站反作弊系列之 — 类目错放

2013-08-16 阿里技术嘉年华

文/王涛

 


【导读】本文就反作弊里边的一个大话题:类目错放,进行了一个较为详尽的分析。包括有如何识别类目错放、以及目前识别遇到的问题等。适合想对反作弊有所深入了解的同学阅读。


    国际站特指阿里巴巴的两个英文网站,分别是信息平台(alibaba.com)以及交易平台(aliexpress.com),  上期对国际站的反作弊作了一个简单的介绍(关注微信号alibabatech回复018可直接查看),接下来对网站几种主要的作弊类型从技术和业务两个方面作一个详细的介绍,本期就从类目错放这一作弊类型开始。

 

类目错放是什么


    类目错放,仅从名字上来看,大家估计应该猜的八九不离十了,没错,类目错放就是卖家把产品放错了类目,大家都知道,类目是电子商务网站的核心之一,好的类目体系不仅能使卖家和网站运营人员更好的管理网站商品,更能使买家快速的找到自己需要的商品(个人觉得这才是最重要的,买家体验)。不过我很担心,如果类目体系完美至极,那我们算法人员岂不是没事干了!唉,矛盾啊!


    那卖家为什么要放错类目呢?呵呵,估计很多同学开始抓狂了吧!卖家没有理由放错类目啊,放在正确的类目不是挺好的吗,方便管理,而且买家浏览商品时不是也更加清晰吗,想不通这些卖家心里到底怎么想的,疯了吗?还有些同学想的比较深一些,会不会是卖家对我们的类目体系不了解啊,我们网站是英文网站,卖家又大多是中国的,中国人本来英语就不好,对类目的意思理解错了也理所当然啊!恭喜这些同学,你们答对了一部分。

    

    就我所了解的我们网站的类目错放的情况,有很大一部分确实是因为用户对类目体系不了解而放错了类目,下面列举的图1和图2都可能是卖家无意识的类目错放,对待这类卖家我们采取的主要是引导的方式,尽量简化和具体化类目体系,使得卖家对类目一目了然,这方面我们可以向淘宝的类目体系学习。


图1三轮摩托车,卖家觉得可能就是摩托车类目,可能对类目不理解



图2平板放在其他电脑产品下,不知道还有Table PC这个类目


    大家很可能只想到了一种卖家类目错放的原因,其实还有一种原因使得卖家挖空心思的去放错类目,这可是故意放错的。类目错放作为一种作弊类型,其根本目的仍然脱离不了作弊的本质意图,那就是企图通过走捷径的方式谋取一定的经济利益,具体表现是卖家通过将商品放在某个热门类目下(热门类目就是买家在网站购买商品时搜索量比较大的类目,如mobile phones,与季节或是节假日有一定关系,如冬季,大家搜棉衣,羽绒服会比较多,夏季搜T恤,短裤比较多)达到提高商品曝光的机会,通俗的说就是使得买家有更多的机会看到这件商品,从而下单购买,相当于免费作广告了!废话不多说,直接上图!


图3机器放在原料下面


图4 case放在MobilePhones类目下



图5 mp4放在mp3类目下


    看了上面通俗又通俗的介绍,大家应该对类目错放有了一个大概的了解了吧,下面我来讲讲我们反作弊小组如何对类目错放的作弊进行智能识别的。

 

如何识别类目错放作弊

 

    类目错放是在卖家后台(MA或ME)发布产品时,算法进行一个实时的识别,有两个点需要注意,卖家自己会为商品选择一个类目,算法一是要保证卖家填的正确类目不会被我们算法判为错误;二是卖家选择的错误的类目,我们算法要能及时识别出来,归结为一点就是算法对卖家填写的类目进行机器审核(代替人工审核),正确的放过,错误的提示更正。


    目前我们类目错放的反作弊算法采用的机器学习的方法,基本思想是卖家填写完一件商品的信息后,我们算法为商品推荐一些类目,依据类目与商品信息相关性排序,然后根据卖家填写的类目与我们推荐的类目的相关性远近来做一个识别,整体的算法流程图为:

              

图6 算法流程图



类目推荐(Recommendation)

 

    类目推荐实际上就是将一件商品分类某一个类目下,从而转化为多分类的问题,实际算法采用的是朴素的贝叶斯分类器。求解一个商品属于某个类目的概率表示为,上式中,offer就代表了一件商品,而f1,..fi是这件商品的信息特征,通过抽取商品的产品词,修饰词,属性词等关键信息组成商品的特征,根据特征采用贝叶斯分类器分类。

 

类目相关性排序(Relevance Rank)

 

    由于贝叶斯特征独立性假设,普通的贝叶斯分类可能无法满足实际的分类需求,通常的做法是为特征加权重,为特征加权重采用的是RankSVM的排序学习模型(具体可参考CornellUniversity以及Wikipedia,注:点击本文尾部{查看原文}可直接打开参考文献)。


    显而易见,产品词应当比修饰词或属性词更能反映商品的特征,因此产品词的权重要比修饰词或属性词高。最后根据概率对候选类目进行排序,越靠前,商品与该类目的相关性就越高。

 

类目审核(Verification)

 

    类目审核就是对卖家为商品选择的类目进行一个机器审核,也就是决定卖家填写类目究竟是对还是错,实际上是一个二分类的问题,算法采用了决策树分类模型实现,通过对卖家填写类目与推荐类目的相关性远近来决定类目正确与否,选择的特征主要有排序的位置,分数的比例等。


类目错放遇到的问题

 

    虽然采用了强大的机器学习模型和算法,但仍不可能解决网站所有的类目错放问题,其中有算法本身的原因,也有网站信息质量方面的原因,信息质量是目前算法遇到的最主要的问题。


1、卖家填写标题、关键词宽泛,标题只有型号词,算法很难判断!


2、卖家喜欢填写在other类目下,算法可能会推荐更好的类目(Sports Caps),other类目让算法很纠结,不好判断到底是错误和正确!


3、卖家填写标题只有核心产品词heater,至于是什么heater就无法得知了,从图片倒是可以看出来,但算法还未智能到可以识别图片的地步。

            


4、下面的标题更牛,只说明是酒店用品,但到底是神马东东,恐怕只有天知地知卖家知了!算法真是伤不起啊!

            



【嘉年华预告】


    在本期反作弊文章发布前,嘉年华在咱们订阅中做过一个小调查。内容是希望订户朋友们就:


 a) 反作弊 

 b) Python自然语言处理 

    

    事后统计选择a多余选择b的同学,所以这两天文章编排的时候选择了反作弊系列优先发布。但是,本周六至下周三连续五天将执行“加餐”福利,以便将Python自然语言处理推送给所有的订户朋友们。“加餐”方式如下图所示:




    今天选择摘录三个后台收到的问题来回答一下订户朋友们:


    问题1:文章目前还不够干,能有点儿私货给我么?

    回答:回复001 - 018任意序号都是绝对的微信首发干货,后面还会有一些“不能说的秘密”分享给大家。


    问题2:你们这个账号的动机是什么?

    回答:将原创高质量的技术内容传播出来,是技术嘉年华的品牌梦想之一。


    问题3:我不懂你发的这些内容,想取消关注了!

    回答:推荐一个纯技术内容不太多,个人感悟分享类比较多的知乎专栏:

 http://zhuanlan.zhihu.com/alibabatech


【嘉年华推荐】

 

    Mac Talk By 池建强,前身是Mac技巧,是早期微信公号里边最有价值的账号之一。像如下问题都是 Mac Talk君 曾经回答过的,例如:

   

1) 如何打造最佳的工作环境

2) 各种终端技巧省时省力省心合集

3) 如何选择一台合适的mac电脑

4) Mac快捷键百科全书

5) 如何从0搭建一个个人网站

6) Macintosh演化史

7) ....

    

最重要是Mac Talk君有一个Python基础学习的系列,还在等什么呢?赶紧微信搜索『MacTalk』关注吧!


    

    提示:如果你觉得本文有料,请不要打赏,请直接分享给你的伙伴们,分享方式如下:



--

微信名称:阿里技术嘉年华

微信号:alibabatech

简介:传播原创高质量的技术内容



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值