Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba (Application)

期刊:KDD’18
作者:Jizhe Wang, Pipei Huang,Zhibo Zhang, Binqiang Zhao,Huan Zhao,Dik Lun Lee
单位:Alibaba,Hong Kong University of Science and Technology


Abstract

推荐系统一直面临三个问题:可扩展性、稀疏性和冷启动。
为了缓解稀疏性和冷启动问题,文章在图嵌入框架上考虑加入辅助信息,以提高点击率。

1.Introduction

之前常用的方法是协同过滤、基于内容和基于深度学习的方法。
可扩展性:已有算法大部分只能运用于小数据集上;
稀疏性:大部分用户只是和小部分的item之间有连接;
冷启动:每小时数以万计的item会持续更新,在没有用户交互行为之前做到准确推荐是一个很大的挑战。
为了解决这些问题,提出的解决方法分为两个步骤,第一步是对用户购买的每个商品生成一个推荐集,第二步是训练深度神经网络模型对这些推荐商品进行排名。我们根据用户的历史行为生成项目图,提出三种算法:
BGE:传统的图嵌入,考虑方向和边权
GES:加入辅助信息,解决冷启动问题——新加入的item交互很少,具有相似辅助信息的item嵌入向量应该相似
EGES:不同的item辅助信息贡献不同,考虑权重

2.Framework

由于考虑用户的所有购买历史对算力要求太高,同时用户兴趣会随着时间迁移,所以文章加入时间窗的概念,一个小时内的点击视为共现,构建无向有权网络。同时剔除一些噪音:短时间浏览的用户行为,购买次数极端高的垃圾邮件用户,删除标识符相关的item。
BGE: Base graph embedding
使用DeepWalk算法学习item的网络嵌入;
GES: Graph embedding with side information
基于用户的历史浏览行为,我们可以构建item网络,也可以根据item的品牌、类别、颜色等特征构建相应的网络,然后对每种辅助信息进行嵌入,这样每一个item除了拥有自身的向量以外还拥有自身辅助信息的向量表达,最后对学习到的所有向量进行算数平均处理,作为item最后的表征。
在这里插入图片描述
Enhanced Graph Embedding with Side Information
文章认为不同的辅助信息对不同的item的贡献不同,所以学习到所有向量后应该考虑加入权重。
在这里插入图片描述

3.Experiments

首先线下链路预测评估方法,然后用线上点击实证,最后给出一些现实世界的案例。

3.1 Offline Evaluation

移除网络中的部分边,然后预测这些边的存在与否。移除网络中1/3的边,剩下的网络作为训练集,移除部分作为测试集,对测试集随机生成正样本数量的没有连接的负样本对。
数据集:亚马逊、淘宝
side information:category, sub-category and brand;
retailer, brand, purchase level, age, gender, style etc.
参数设置: the length of random walk is 10, the number of walks per node is 20, and the context window is 5.
数据集:
在这里插入图片描述
实验结果:
在这里插入图片描述

3.2 Online A/B Test

使用文章提出的算法产生候选集,图为不同算法推荐结果下用户的在线点击率。Base表示协同过滤算法。
在这里插入图片描述

3.3 Case Study

1.可视化
可以看到不同类别的鞋子被聚成了不同的类;
不同类别之间远近距离不同,可解释性高。说明羽毛球鞋和乒乓球的爱好者有较多的重叠。
在这里插入图片描述
2.冷启动
使用算数平均生成最后的向量,推荐结果如下。
在这里插入图片描述
3.EGES中的权重
(1)不同item的辅助信息权重分布不同
(2)item自身向量权重最大,主要还是基于历史行为
(3)辅助信息中商店的权重最大,用户倾向
在这里插入图片描述

4 System deployment and operation

在图8中,我们显示了淘宝中推荐平台的体系结构。 该平台由两个子系统组成:在线和离线。
在这里插入图片描述
对于在线子系统,主要组成部分是淘宝个性平台(TPP)和排名服务平台(RSP)。 工作流程:
1.当用户启动移动淘宝应用程序时,TPP会提取用户的最新信息,并从离线子系统中检索候选项目集,然后将其提供给RSP。
2.RSP使用深度神经网络模型对候选项目集进行排名,并将排名结果返回给TPP。
离线子系统的工作流程,在其中实现和部署了图嵌入方法:
1.检索包括用户行为的日志。项目图是根据用户的行为构造的,实际选择最近三个月的日志。
2. 在生成基于交互的用户行为序列之前,将反垃圾邮件处理应用于数据。 剩余的日志包含大约6,000亿个条目。 然后,根据第2节中所述的方法构造项目图。为了运行我们的图嵌入方法,采用了两种实用的解决方案:
1)将整个图分为多个子图,这些子图可以在淘宝的开放数据处理服务(ODPS)分布式平台中并行处理。每个子图中大约有5000万个节点。
2)为了在图中生成随机游动序列,我们在ODPS中使用了基于迭代的分布式图框架。随机游走产生的序列总数约为1500亿。
3.为了实现建议的嵌入算法,我们的XTF平台中使用了100个GPU。 在已部署的平台(拥有1500亿个样本)下,离线子系统中的所有模块(包括日志检索,反垃圾邮件处理,项目图构造,通过随机游走生成序列,嵌入,项目间相似度计算和地图生成)都可以在不到六个小时的时间内执行。因此,我们的推荐服务可以在很短的时间内响应用户的最新行为。

5. Related work

5.1 Graph embedding

已经提出了图嵌入算法作为一般的网络表示方法。 它们已应用于许多实际应用中。 在过去的几年中,在该领域有很多研究集中在设计新的嵌入算法上。 这些方法可分为三大类:
1)分解方法,例如LINE [1]试图近似分解邻接矩阵并保留一阶和二阶邻近度;
2)深度学习方法[3,20,21]增强了模型捕获图形中非线性的能力;
3)基于随机游走的技术[7、8、15]使用图上的随机游走来获得非常高效的节点表示,因此可以在超大规模网络中使用。
在本文中,我们的嵌入框架基于随机游走。

5.2 Graph embedding with side information:

近年来,许多工作尝试合并辅助信息以增强图形嵌入方法。大多数工作都是基于这样的假设来完成任务的,即具有相似辅助信息的节点在嵌入空间中应该更靠近。
为了实现这一目标,[10,19]提出了一个联合框架,以利用分类器函数优化嵌入目标函数。
在[24]中,谢等人 进一步将复杂的知识图嵌入到具有子结构等层次结构的节点中。
此外,与节点有关的文本信息被合并到图形嵌入中[18,23,25,26]。
在[4]中,Chang等人提出了一个深度学习框架来同时处理异构图形嵌入的文本和图像特征。
RS已成为图形嵌入中最受欢迎的下游任务之一。 有了手头的表示,可以使用各种预测模型进行推荐。

5.3 Graph Embedding for RS:

[27,29]中,在异构信息网络中分别在元路径和元图的监督下学习了用户和项的嵌入。
[27]提出了一个线性模型来聚合嵌入以进行推荐。
[29]提出将factorization machine应用于嵌入以进行推荐。
[28]提出了一个联合嵌入框架,以学习用于推荐的图形,文本和图像的嵌入。
[30]提出了图嵌入以捕获非对称相似性以进行节点推荐。
在本文中,我们的图形嵌入方法被集成在一个两阶段的推荐平台中。 因此,嵌入效果直接影响最终的推荐结果。

6. Conclusion and future work

淘宝的数十亿规模的数据(十亿用户和二十亿项)在可伸缩性,稀疏性和冷启动方面给RS带来了巨大压力。 在本文中,我们提出了基于图嵌入的方法来应对这些挑战。 为了解决稀疏性和冷启动问题,我们建议将辅助信息合并到图形嵌入中。 进行了离线实验,以证明辅助信息在提高推荐准确性方面的有效性。 在线点击率还证明了我们提出的方法在淘宝现场中的有效性和可行性。 通过分析实际案例,以突出我们提出的图形嵌入方法在利用用户的行为历史对相关项进行聚类以及使用辅助信息处理冷启动项方面的优势。 最后,为了解决我们在淘宝中提出的解决方案的可伸缩性和部署问题,我们详细介绍了用于训练图嵌入方法的平台以及淘宝推荐平台的整体工作流程。 对于未来的工作,我们将追求两个方向:首先是在我们的图嵌入方法中利用注意力机制,这可以为学习不同辅助信息的权重提供更大的灵活性; 第二个方向是将文本信息整合到我们的方法中,以利用附加到淘宝商品的大量评论。

Some references:
[27]Personalized entity recommendation: A heterogeneous information network
approach. In WSDM, pages 283–292, 2014
https://dl.acm.org/doi/10.1145/2556195.2556259
[28] Collaborative knowledge base embedding for recommender systems. In KDD, pages 353–362, 2016
https://dl.acm.org/doi/10.1145/2939672.2939673.
[29]Meta-graph based recommendation fusion over heterogeneous information networks. In KDD, pages 635–644, 2017
https://dl.acm.org/doi/10.1145/3097983.3098063
[30]Scalable graph embedding for asymmetric proximity. In AAAI, pages 2942–2948, 2017
https://www.aaai.org/ocs/index.php/AAAI/AAAI17/paper/viewPaper/14696

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值