会话/序列推荐:Caser、SASRec、BERT4Rec [Session based / Sequential Recommendation]

Caser

2018-WSDM-Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding

卷积序列推荐模型Caser,使用CNN从近期items序列中以局部特征的方式提取序列模式。

3 模型

为了捕获

  • 用户的整体偏好和序列模式
  • 联合级别和单独级别的i2i
  • skip行为连接

在这里插入图片描述

3.1 嵌入层

user和item都有嵌入,在t时刻user的items集合是L个:
在这里插入图片描述

3.2 卷积层

把 E 矩阵 L×d 看作"image",把序列模式看作 “image” 中的局部特征。

  • Horizontal 卷积
    h×d,捕获联合级别的序列模式*(不会在嵌入维度之间进行卷积,就像textcnn一样)*
    这个h就是 联合级别中联合的size

  • 行为序列(image): L×d

  • 1个卷积核:h×d (如果num个filter h×d×num)

  • 卷积操作:[L-h+1] ×1 (如果num个filter [L-h+1] ×1×num)

  • max pooling:1×1 (如果num个filter 1 ×1×num)

(总之每个filter最终提取的feature结果一定是1维的)
然后可以有不同h的卷积核,每个h的卷积核也可以有数量;最后得到的feature维度是 1× filter数量。k是filter的idx:
卷积操作
卷积操作
第k个filter卷积后得到的feature map (后续max池化就变成1维了)
第k个filter卷积后得到的feature map (后续max池化就变成1维了)
n个filter池化后得到的feature
n个filter池化后得到的feature

  • Vertical 卷积
    L×1 卷积核,通过加权组合pre items得到特征向量,捕获单独级别的序列模式。

  • 行为序列(image): L×d

  • 1个卷积核:L×1 (如果num个filter L×1×num)

  • 卷积操作:1×d (如果num个filter 1 ×d×num)

(总之每个filter最终提取的feature结果一定是d维的)

其实这种卷积就相当于对items的加权组合,卷积核 L×1 对应的就是这L个物品的权重,最后得到 num×d 的聚合特征:
在这里插入图片描述
在这里插入图片描述

3.3 全连接层

将Horizontal 卷积和Vertical 卷积得到的特征concat+MLP,得到卷积序列嵌入:
在这里插入图片描述
将卷积序列嵌入和user嵌入concat+MLP+sigmoid得到预测输出概率:
在这里插入图片描述

3.4 训练

注意为了捕获skip行为,预测的是next,next+1,next+2,…next+T-1;即:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

刚开始这个输出有点没看明白,以为要输出next item是所有候选item的概率(理论上应该要的),但一般都是softmax-每个正样本负采样-层次softmax-得到正样本+负样本的sigmoid loss,看这个意思就是:

  • z是卷积序列嵌入,它是从t时刻前L个item的嵌入上整合出来的特征,或者说user的短期兴趣
  • u是user嵌入,可以认为是user的长期兴趣
  • 最后一层MLP的参数 W ′ W' W 可以看作item 作为target时的嵌入表,它的维度取决于 z维度+u维度 ;将target item 嵌入与 concat(z,uid) 做简单的MLP+sigmoid,得到在当前uid、t时刻items的情况下target item的概率(也可以认为就是target item 和cur sqe+uid 的表示做内积+sigmoid)
3.6 与一些模型的关系

很喜欢这一部分

  • MF
    在这里插入图片描述
  • FPMC
    在这里插入图片描述
  • Fossil
    在这里插入图片描述

SASRec

2018-ICDM-Self-Attentive Sequential Recommendation

序列动态,基于用户近期的行为,寻求捕获用户活动的上下文。两种方法:MC,认为next item和近几个item相关,适用于稀疏数据集;RNN,能捕获长距离的关系,适用于更密集的数据集。本文提出SASRec,能够捕获长距离语义,又能使用注意力机制让其预测基于相关的少量行为。

在这里插入图片描述

2 RELATED WORK

  1. 常规(通用)的推荐*(不知道咋翻译合适)*

    • MF
    • ISM,不学习用户的嵌入,只学习i2i相似度矩阵,衡量target item和user history items的相似度
    • DL,(1)使用nn提取item特征;(2)替代MF中的内积,如NCF、AutoRec
  2. 时间的推荐

    • 显式对用户活动的时间戳进行建模,TimeSVD++,适用于展现出时间漂移的数据集
    • 注:时间的推荐和序列推荐(next item rs)是不同的,序列推荐只考虑行为的序关系,对序列模式(是独立于时间之外的)建模
  3. 序列推荐

    • i2i转移矩阵,FPMC(一阶MC)、Caser(高阶MCs)
    • RNN类,GRU4Rec
  4. 注意力机制

    • 作为附加组件+原始模型
    • Transfomer,完全依靠自注意力机制

3 METHODOLOGY

在这里插入图片描述
输入:
在这里插入图片描述
期望输出:

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值