在大规模电商推荐系统中,至少都包含了两个过程,针对用户的候选召回(Match)以及对候选商品的精排(Rank),有时候还需要线上的策略调控(Re-rank)。本文讲解的 EGES 模型借助随机游走的思想对各种商品做图嵌入,然后用于相似推荐场景的召回过程。
图构建
文章首先介绍了如何抽取数据来构造图与随机游走序列,具体做法是:
- 以60分钟为窗口抽取用户的点击序列,如下图中的(a)所示。
- 按照点击顺序构造有向图,如下图中的(b)所示,边的权重是所有用户对两个关联商品的点击次数之和。
- 对图的每个节点 根据边的权重 以不同的概率进行随机游走,得到商品序列,如下图的©所示。
作者还提到在抽取数据的时候,过滤了以下几种情况:
- 点击后的停留时间小于1秒,很可能是误点。
- 过于频繁进行购买的用户,可能是刷单行为。
- 商品信息频繁变更的商品,因为有可能变成了完全不同的商品。
BGE (Base Graph Embedding)
这是论文提出的第一种图嵌入模型,每个节点以指向邻居的边的权重归一化后的值作为概率进行游走,概率计算公式如下:
其中, N + ( v i ) N_+(v_i) N+(vi) 是节点 i