Caser
2018-WSDM-Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding
卷积序列推荐模型Caser,使用CNN从近期items序列中以局部特征的方式提取序列模式。
3 模型
为了捕获
- 用户的整体偏好和序列模式
- 联合级别和单独级别的i2i
- skip行为连接
3.1 嵌入层
user和item都有嵌入,在t时刻user的items集合是L个:
3.2 卷积层
把 E 矩阵 L×d 看作"image",把序列模式看作 “image” 中的局部特征。
-
Horizontal 卷积
h×d,捕获联合级别的序列模式*(不会在嵌入维度之间进行卷积,就像textcnn一样)*
这个h就是 联合级别中联合的size -
行为序列(image): L×d
-
1个卷积核:h×d (如果num个filter h×d×num)
-
卷积操作:[L-h+1] ×1 (如果num个filter [L-h+1] ×1×num)
-
max pooling:1×1 (如果num个filter 1 ×1×num)
(总之每个filter最终提取的feature结果一定是1维的)
然后可以有不同h的卷积核,每个h的卷积核也可以有数量;最后得到的feature维度是 1× filter数量。k是filter的idx:
卷积操作
第k个filter卷积后得到的feature map (后续max池化就变成1维了)
n个filter池化后得到的feature
-
Vertical 卷积
L×1 卷积核,通过加权组合pre items得到特征向量,捕获单独级别的序列模式。 -
行为序列(image): L×d
-
1个卷积核:L×1 (如果num个filter L×1×num)
-
卷积操作:1×d (如果num个filter 1 ×d×num)
(总之每个filter最终提取的feature结果一定是d维的)
其实这种卷积就相当于对items的加权组合,卷积核 L×1 对应的就是这L个物品的权重,最后得到 num×d 的聚合特征:
3.3 全连接层
将Horizontal 卷积和Vertical 卷积得到的特征concat+MLP,得到卷积序列嵌入:
将卷积序列嵌入和user嵌入concat+MLP+sigmoid得到预测输出概率:
3.4 训练
注意为了捕获skip行为,预测的是next,next+1,next+2,…next+T-1;即:
刚开始这个输出有点没看明白,以为要输出next item是所有候选item的概率(理论上应该要的),但一般都是softmax-每个正样本负采样-层次softmax-得到正样本+负样本的sigmoid loss,看这个意思就是:
- z是卷积序列嵌入,它是从t时刻前L个item的嵌入上整合出来的特征,或者说user的短期兴趣
- u是user嵌入,可以认为是user的长期兴趣
- 最后一层MLP的参数 W ′ W' W′ 可以看作item 作为target时的嵌入表,它的维度取决于 z维度+u维度 ;将target item 嵌入与 concat(z,uid) 做简单的MLP+sigmoid,得到在当前uid、t时刻items的情况下target item的概率(也可以认为就是target item 和cur sqe+uid 的表示做内积+sigmoid)
3.6 与一些模型的关系
很喜欢这一部分
- MF
- FPMC
- Fossil
SASRec
2018-ICDM-Self-Attentive Sequential Recommendation
序列动态,基于用户近期的行为,寻求捕获用户活动的上下文。两种方法:MC,认为next item和近几个item相关,适用于稀疏数据集;RNN,能捕获长距离的关系,适用于更密集的数据集。本文提出SASRec,能够捕获长距离语义,又能使用注意力机制让其预测基于相关的少量行为。
2 RELATED WORK
-
常规(通用)的推荐*(不知道咋翻译合适)*
- MF
- ISM,不学习用户的嵌入,只学习i2i相似度矩阵,衡量target item和user history items的相似度
- DL,(1)使用nn提取item特征;(2)替代MF中的内积,如NCF、AutoRec
-
时间的推荐
- 显式对用户活动的时间戳进行建模,TimeSVD++,适用于展现出时间漂移的数据集
- 注:时间的推荐和序列推荐(next item rs)是不同的,序列推荐只考虑行为的序关系,对序列模式(是独立于时间之外的)建模
-
序列推荐
- i2i转移矩阵,FPMC(一阶MC)、Caser(高阶MCs)
- RNN类,GRU4Rec
-
注意力机制
- 作为附加组件+原始模型
- Transfomer,完全依靠自注意力机制
3 METHODOLOGY
输入:
期望输出: