淘宝关键词推荐技术介绍

2013-08-19 阿里技术嘉年华

文/太紫


【导读】本文通过行业对比等角度分析了关键词推荐技术及工具,关键词推荐系统帮助广告主扩展选词思路,挖掘有价值的关键词,从而更好地提升产品的曝光,帮助广告主找到客户;同时,一个好的关键词推荐系统也能更好地服务用户,帮助用户快速找到合适的供应商。

 

关键词推荐是什么


    赞助商搜索(sponsored search)是一种关键词驱动的广告形式,这种广告系统的第一步就是广告主对关键词进行竞价,而大部分的广告系统都会给用户提供关键词推荐工具,帮助广告主选词。


比如,下面就是google adwords的关键词工具:


图1 google的关键词工具

 

    百度的凤巢系统给竞价用户提供的关键词推荐工具,提供了多种推荐策略:


图2百度关键词工具

 

    阿里巴巴的付费搜索,也叫p4p(pay forperformance)广告,当然也少不了关键词推荐工具,包括根据种子词推荐相关词和根据offer推荐相关词。国际站p4p的推词功能是由先知平台提供的。

    

    从广告系统运作流程上来看,关键词像一个红线贯穿整个广告流程,如图3所示。



 

 图3 p4p中的关键词推荐系统

 

    首先,广告主登陆bp系统(p4p关键词竞价系统)购买竞价词,此时关键词推荐系统自动推荐与广告主offer相关的关键词并展示给广告主,广告主按照自己的需求选定需要的关键词参与竞价,竞价完成后的关键词就是系统竞价词。然后,把这些竞价词信息导入引擎的广告库中并建立索引。

    

    当用户在alibaba网站上搜索产品时,用户需要输入查询query,检索系统按照一定的匹配策略使用查询query匹配索引中的竞价词,通过竞价词找到与之匹配的offer,过滤排序后展现给用户。同时,系统会将用户的查询信息记录到日志中,推荐系统利用用户的查询日志和广告主的产品信息将关键词推荐给广告主。


关键词推荐为什么重要


    各位看了上面的介绍其实心里应该有数了,再总结总结。

    

    关键词推荐系统帮助广告主扩展选词思路,挖掘有价值的关键词,从而更好地提升产品的曝光,帮助广告主找到客户;同时,一个好的关键词推荐系统也能更好地服务用户,帮助用户快速找到合适的供应商。


推词方法


    关键词推荐系统给广告主提供多维度的推词方法,像google、百度这种搜索引擎一般提供按种子词推荐相关词和根据url推词。Alibaba.com的p4p广告帮助广告主推广offer,所以,没有传统搜索引擎按url推词,目前国际站给用户提供的选词方法:


    a)根据种子词推荐关键词


    当广告主输入一个特定的关键词(种子词),系统自动为其推荐相关的关键词。比如,输入“mp3”,系统会自动推出“waterproof mp3”、“earphone mp3”、“car raio mp3”等等。


图4 词推词

 

    当用户出售某种产品时,但是不知道与产品相关的词有哪些,可以使用这种词推词的功能,帮助自己选词。

    

    b)根据offer推荐关键词


    广告主登录bp系统后,选择要推广的offer,系统自动会根据被选的offer推荐与之相关的关键词。


图5 offer推词

 

    这种方法对于广告主来说更简单,完全不用关心选择什么样的关键词能给其产品带来更好的曝光和点击。关键词推荐系统已经默默地为其做好了这些事,用户只要点点鼠标就ok了。


    c)先知平台


    目前先知平台提供根据alibaba.com的p4p广告offer推词的功能,广告主在bp平台选择要做广告推广的产品,系统根据offer信息在query log中挖掘与之相关的查询词,按照一定的规则进行过滤,然后计算相关性,最后按照相关性大小排序输出推荐给客户。


    根据产品推荐关键词有很多不同的方法,先知平台在保证相关性的基础上尽量提高推荐词的覆盖率。先知平台利用自然语言处理、信息检索技术、分布式存储和计算做为基础的技术平台,在此基础上尽可能挖掘有用的关键词,同时,也保证了系统的响应速度。


·  自然语言处理:系统大量使用NLP技术处理query和product信息,包括中心词抽取、词干化处理等


·   信息检索:先知平台整体框架采用典型的检索系统架构,离线计算部分主要是建索引,索引中存储计算好的系统推荐词,在线部分主要是检索功能,根据输入的offer数据检索系统结构


·  分布式计算和存储:由于先知平台要处理海量数据,所以,很多数据的存储和计算都在云梯上完成


系统实现上主要分为两部分:线下建索引和线上查询。


图6 先知平台总体框架

 

 线下建索引


线下挖掘出与offer相关的query之后,以offer为词表,query为倒排表,将结果建成倒排索引。


1)   系统对输入的log和offer进行预处理,包括特殊符号处理、归一化处理等


2)   然后,对于log日志,使用kwe模块讲query进行分词,并建立从term到query的倒排索引t2q;对于offer,使用kwe模块抽取title的中心词做为产品词


3)   根据offer的产品词查询倒排索引t2q得到候选词


4)   使用过滤模块过滤候选词,去除不相关的候选词


5)   使用mlr模块计算offer和候选词的相关性,如果满足要求保留下来(offer,query,score)


6)   将上面得到的(offer,query,score)建入倒排索引o2q


4.2 线上查询


线上查询部分根据传入的offer信息,查询索引,填充结果后返回。


1)   首先对用户的查询进行预处理


2)   判断索引是否失效(如果offer信息有变更,则认为该查询对应的索引失效),如果失效,进入第3)步;否则,进入第4)步


3)   线上需要实时对offer计算推荐词,计算逻辑跟线下部分类似


4)   查询索引,得到结果


5)   按需要填充返回结果后返回给查询端

 

 提示:点击{查看原文}可以查看大图,如果感觉朋友们可能也对本文感兴趣,请直接分享给你的伙伴们,分享方式如下:



--

微信名称:阿里技术嘉年华

微信号:alibabatech

简介:传播原创高质量的技术内容



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值