会话/序列推荐：Caser、SASRec、BERT4Rec [Session based / Sequential Recommendation]

最新推荐文章于 2022-11-27 16:39:16 发布

置顶

Dive_

最新推荐文章于 2022-11-27 16:39:16 发布

阅读量3.4k

点赞数 2

分类专栏：推荐系统

本文链接：https://blog.csdn.net/qq_38119106/article/details/118462780

版权

本文详细介绍了三种序列推荐模型：Caser利用CNN捕捉序列模式，SASRec通过自注意力机制捕获长距离依赖，BERT4Rec则采用双向Transformer提升预测效果。通过对嵌入层、卷积层、自注意力层等关键组件的探讨，揭示了这些模型如何在推荐系统中发挥作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Caser

2018-WSDM-Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding

卷积序列推荐模型Caser，使用CNN从近期items序列中以局部特征的方式提取序列模式。

3 模型

为了捕获

用户的整体偏好和序列模式
联合级别和单独级别的i2i
skip行为连接

在这里插入图片描述

3.1 嵌入层

user和item都有嵌入，在t时刻user的items集合是L个：
在这里插入图片描述

3.2 卷积层

把 E 矩阵 L×d 看作"image"，把序列模式看作 “image” 中的局部特征。

Horizontal 卷积
h×d，捕获联合级别的序列模式*（不会在嵌入维度之间进行卷积，就像textcnn一样）*
这个h就是联合级别中联合的size
行为序列(image): L×d
1个卷积核：h×d （如果num个filter h×d×num）
卷积操作：[L-h+1] ×1 （如果num个filter [L-h+1] ×1×num）
max pooling：1×1 （如果num个filter 1 ×1×num）

(总之每个filter最终提取的feature结果一定是1维的)
然后可以有不同h的卷积核，每个h的卷积核也可以有数量；最后得到的feature维度是 1× filter数量。k是filter的idx：

卷积操作

第k个filter卷积后得到的feature map （后续max池化就变成1维了）

n个filter池化后得到的feature

Vertical 卷积
L×1 卷积核，通过加权组合pre items得到特征向量，捕获单独级别的序列模式。
行为序列(image): L×d
1个卷积核：L×1 （如果num个filter L×1×num）
卷积操作：1×d （如果num个filter 1 ×d×num）

(总之每个filter最终提取的feature结果一定是d维的)

其实这种卷积就相当于对items的加权组合，卷积核 L×1 对应的就是这L个物品的权重，最后得到 num×d 的聚合特征：
在这里插入图片描述

3.3 全连接层

将Horizontal 卷积和Vertical 卷积得到的特征concat+MLP，得到卷积序列嵌入：
在这里插入图片描述
将卷积序列嵌入和user嵌入concat+MLP+sigmoid得到预测输出概率：

3.4 训练

注意为了捕获skip行为，预测的是next,next+1,next+2,…next+T-1；即：
在这里插入图片描述

刚开始这个输出有点没看明白，以为要输出next item是所有候选item的概率（理论上应该要的），但一般都是softmax-每个正样本负采样-层次softmax-得到正样本+负样本的sigmoid loss，看这个意思就是：

z是卷积序列嵌入，它是从t时刻前L个item的嵌入上整合出来的特征，或者说user的短期兴趣
u是user嵌入，可以认为是user的长期兴趣
最后一层MLP的参数 $W^{'}$ 可以看作item 作为target时的嵌入表，它的维度取决于 z维度+u维度；将target item 嵌入与 concat(z,uid) 做简单的MLP+sigmoid，得到在当前uid、t时刻items的情况下target item的概率（也可以认为就是target item 和cur sqe+uid 的表示做内积+sigmoid）

3.6 与一些模型的关系

很喜欢这一部分

MF
FPMC
Fossil

SASRec

2018-ICDM-Self-Attentive Sequential Recommendation

序列动态，基于用户近期的行为，寻求捕获用户活动的上下文。两种方法：MC，认为next item和近几个item相关，适用于稀疏数据集；RNN，能捕获长距离的关系，适用于更密集的数据集。本文提出SASRec，能够捕获长距离语义，又能使用注意力机制让其预测基于相关的少量行为。

在这里插入图片描述

2 RELATED WORK

常规（通用）的推荐*（不知道咋翻译合适）*
- MF
- ISM，不学习用户的嵌入，只学习i2i相似度矩阵，衡量target item和user history items的相似度
- DL，（1）使用nn提取item特征；（2）替代MF中的内积，如NCF、AutoRec
时间的推荐
- 显式对用户活动的时间戳进行建模，TimeSVD++，适用于展现出时间漂移的数据集
- 注：时间的推荐和序列推荐(next item rs)是不同的，序列推荐只考虑行为的序关系，对序列模式（是独立于时间之外的）建模
序列推荐
- i2i转移矩阵，FPMC（一阶MC）、Caser（高阶MCs）
- RNN类，GRU4Rec
注意力机制
- 作为附加组件+原始模型
- Transfomer，完全依靠自注意力机制