【推荐系统】ATRank: Attention-Based User Behavior Modeling Framework For Recommendation

最新推荐文章于 2024-04-27 09:56:32 发布

布纸所云

最新推荐文章于 2024-04-27 09:56:32 发布

阅读量4.6k

点赞数 1

分类专栏：推荐系统

本文链接：https://blog.csdn.net/XindiOntheWay/article/details/106886477

版权

推荐系统专栏收录该内容

10 篇文章 3 订阅

订阅专栏

ATRank: An Attention-Based User Behavior Modeling Framework for Recommendation

论文地址：https://arxiv.org/pdf/1711.06632.pdf

1. Introduction

正如单词可以由上下文表示一样，一个用户也可以由他/她的历史行为来表征
用户行为通常构成一个与时间相关的序列（a sequence over the timeline）
- RNN/CNN被引入来encode behavior sequence，但是 both the basic RNN and CNN encoders suffer from the
  problem that the fixed-size encoding vector may not support both short and long sequences well
  - 即使使用LSTM或者GRU，RNN 也难以对 long-term dependencies 建模，且无法并行
  - CNN可以并行，但是任意两个位置的behavior之间的interaction paths最长为 $log_kn$ ， $k$ 为卷积核的大小， $n$ 为用户行为的数量
- attention被引入，在decode时能够给予不同的行为不同的权重
  - However, we show that the one-dimensional attention score between any two vectors may neutralize their relationships in different semantic spaces
  - attention的机制如下： $C=\sum_{i=1}^na_i\vec{v_i}$
  - $\vec{v_i}$ 的每个元素都使用相同的权重 $a_i$ ，因此对 $\vec{v}_i$ 的不同语义并不能能够做出区分
- 此外，用户的行为是异质的(heterogeneous)，非常灵活的，因此很难去建模
  - 以电商推荐系统举例，用户可能会浏览/点击/收藏商品（browse/click/mark items）、接收/使用优惠券（receive/use coupons）、点击广告（click ads）、搜索关键词（search keywords ），写评论（write down reviews）、看商铺的视频或者直播等，每一种行为都反映了用户的某一方面的特征，对于构建全方位的用户模型都是非常有帮助的

2. Self-Attention Based Behavior Modeling Framework

用户行为被表示为一个三元组： ${a,o,t\}$

$a$ 表示行为的类型 (behavior type)，比如点击/收藏/加购、领取/使用
$o$ 表示行为的对象 (the object the behavior acts on)，比如商品、优惠券、搜索词等
$t$ 表示行为发生的时间
用户的行为序列被表示为 $U=\{(a_j,o_j,t_j) | j=1,2,\cdots,m\}$

模型分为如下几块：

Raw Feature Spaces
Behavior Embedding Spaces
Latent Semantic Spaces

2.1 Raw Feature Spaces

首先会根据行为的对象 $o_j$ 将 $U=\{(a_j,o_j,t_j) | j=1,2,\cdots,m\}$ 划分至不同的组 $G=\{bg_1,bg_2,\cdots,bg_n\}$ ，
$bg_i\cap bg_j= \emptyset,U=\cup_{i=1}^{n}bg_i$ ，例如划分为商品行为，优惠券行为，关键字行为等等
在每个 $bg_i$ 内部，object的空间相同，之后可以使用 group-specific 的神经网络去获得 behavior embeddings
举例：对商品的行为组成第一组 $bg_1$ ，优惠券行为是 $bg_3$ ，搜索相关行为 $bg_2$ ，注意每组里面行为的个数不一定相同

2.2 Behavior Embedding Spaces

对于在 $bg_i$ 中的某个行为 $u_i=(a_j,o_j,t_j)$ ，会将 $a_j, o_j, t_j$ 分别转化为嵌入式向量：
对于时间 $t_j$ 会将其离散化：计算行为发生时间距当前时间的间隔，然后按照如下区间将时间间隔离散化，之后再进行embedding：
behavior embedding spaces的输出是一组向量，其中 $u_{bgi}=concat_j(u_{ij})$ ，表示所有属于第 $i$ 组的 behavior embedding 的 concat：
具体的计算过程示例如下：
有以下两点注意事项：
- 每组embedding的维度是不一样的，因为：
  - 每个用户在不同组别下行为的个数不一样
  - 不同组别embedding size不一定一样，比如商品行为一般会比搜索行为反映更多的信息，所以会有更长的embedding size
- 不同bg的objects如果有相同的特征，embedding 是跨组共享的，比如 shop id, category id 可以由 item, coupon组共享；但是关于时间的embedding不共享，因为时间对于不同组行为的影响不同。

2.3 Latent Semantic Spaces

由于不同组的embedding size不一样，因此首先通过 $F_{Mi}$ 将 $u_{bgi}$ 映射到一个相同的维度 $s_{all}$ ，若一个user行为的个数为 $n_{all}$ , $S$ 的维度则为 $n_{all} \times s_{all}$
之后再利用 $F_{P_k}$ 将 $S$ 映射到不同的语义空间， $S_k$ 的维度为 $n_{all}\times s_k$