阿里深度学习的“金刚钻”——千亿特征XNN算法及其落地实践

最新推荐文章于 2024-04-25 09:58:52 发布

maoreyou

最新推荐文章于 2024-04-25 09:58:52 发布

阅读量2.4k

点赞数

文章标签：算法分布式

本文链接：https://blog.csdn.net/maoreyou/article/details/80066788

版权

 
 摘要： 
 随着十二点的钟声响起，无数人盯着购物车开启了一年一度的“剁手”之旅。可你有没有想过这购物狂欢的背后是什么支撑起了数据规模如此庞大的计算任务？其实不只是“双十一”，每一个用户的点击和浏览，每一件宝贝的排序和推荐，还有贴心的“猜你喜欢”，在这背后“操控”一切的“手”又是什么？本文将带领大家一探究竟。 

 
 演讲嘉宾简介： 

 
 范朝盛（花名：朝圣）， 
 阿里巴巴搜索事业部算法专家，北京大学数学与计算机科学博士，2016年加入阿里巴巴，现主要从事推荐系统特征、模型、架构和大规模机器学习框架的研发工作。 

 
 以下内容根据演讲嘉宾视频分享以及PPT整理而成。 

 
 本次分享的主要围绕以下三个方面： 

 
 一．业务背景 

 
 二．XPS机器学习平台 

 
 三．XNN深度学习算法 

 
 一．业务背景 

 
 业务场景和机器学习的问题 

 
 业务场景主要包括三个方面： 

 
 （1） 搜索：比如用户在淘宝中输入检索词，网站则会展示出相应宝贝信息的场景。 

 
 （2）广告：包括搜索广告，精准定向广告和品牌广告等场景。 

 
 （3）推荐：将淘宝客户端网页从上到下滑动，其中很多场景均为推荐子场景。 

 
 在这些业务场景中蕴含着各种各样的问题，从技术的角度看，主要的三类问题是经典的数据挖掘问题、图像问题（低质量图像的识别、图像的分类）和语义问题（NLP问题，例如研究检索词和宝贝的标题表示）。从上面的简单介绍中可以看出，阿里团队的业务场景较为复杂，而机器学习在处理这些问题的过程中所扮演的角色是十分重要的。 

 
 对于机器学习，需要建模的问题主要有如下几种： 

 
 （1）点击率预估：用户曝光，点击宝贝后预估点击率，淘宝所特有的收藏率预估和加入购物车的概率预估，同时还会预估用户点击一个宝贝之后进行购买的转化行为概率的预估。 

 
 （2）点击质量好坏的预估，这对于为用户推荐商品操作极为重要。 

 
 （3）相关性预估：相关性指的是用户所触达的商品与用户真正相关的可能性，比如用户可能会点击推荐的热门商品，但这种商品与用户之间的相关性系数并不高。 

 
 这些问题的解决都需要从用户行为数据获取样本，阿里团队会收集用户日志，然后从中提取机器学习所需要的特征，并且加入相应的标签，例如点击、收藏、加入购物车等。用户行为转化都是比较直觉的，而对于点击质量的好坏，则可以定义用户停留小于一定的时间属于一个bad case ，超过一定的时间属于一个good case，如此来定制标签。 

 
 面临的挑战及解决方法 

 
 有了用户数据之后，接下来看一下机器学习过程中可能要面临的挑战。淘宝的机器学习模型要面临的挑战主要有三种： 

 
 （1）样本多：在搜索领域已经可以达到每天几百亿的样本规模，而在推荐领域比如首页底部的“猜你喜欢”模块的样本也能够达到百亿规模。每天百亿规模，三个月就可以达到万亿规模，这样庞大的样本数量十分难能可贵，同样也具有很大的挑战性，阿里团队就需要设计专用的机器学习平台来处理解决此类问题。 

 
 （2）特征多：特征多主要表现在如下几个方面。首先特征的属性非常繁杂，种类多，总量大。整个淘宝网购平台上有几亿的用户和十几亿的产品，而用户的检索词也是各种各样，非常丰富；淘宝每天还会产生几百亿甚至上千亿的用户行为；而对于用户属性，阿里团队为用户绘制了非常详细的用户画像，所以每个用户的属性十分丰富，与此相同，宝贝的属性也很多。同时，阿里团队通过阿里基础特征服务（ABFS）的框架引入了更多的特征，该框架大规模地引入了用户侧的实时特征统计和产品侧实时特征统计。例如用户最近点击的一系列的宝贝（可能会有上百个），用户三天、五天、七天的点击率的统计，产品的点击率与转化率和该产品在两个小时内被不同类型的人群购买的分布等等。ABFS同时还引入了用户在翻页时上下文的一些特征，例如用户翻页到第三页时可以将第二页的信息可以实时地推送给用户，有助于在建模时作为上下文(context)特征来使用。此外，在ABFS中还建立了图像和语义的表示向量，每一张图片可以被形成一个向量，每个标题（title）词和搜索（query）词也会形成一个向量，然后加入到机器学习的训练集之中，所以综合来看，在基础属性已经非常庞大的基础上，阿里基础特征服务又提供了更多的特征信息，这些特征经过适当的特征组合之后，总量很轻易地就能够达到万亿规模，而处理如此规模的训练数据是一个非常迷人的问题，同时也需要很多特别的设计来方便进行训练。