【序列推荐、长短期兴趣、】 CaFe：Coarse-to-Fine Sparse Sequential Recommendation(从粗粒度到细粒度的稀疏序列推荐)

堇禤

已于 2023-10-30 22:17:00 修改

阅读量1.2k

点赞数

分类专栏：推荐算法序列推荐文章标签：机器学习深度学习推荐算法

于 2022-04-19 16:39:32 首次发布

本文链接：https://blog.csdn.net/CRW__DREAM/article/details/124272685

版权

推荐算法同时被 2 个专栏收录

37 篇文章

订阅专栏

序列推荐

15 篇文章

订阅专栏

本文介绍了一种新颖的序列推荐方法CaFe，针对自注意力机制在处理稀疏数据上的挑战。CaFe通过意图和商品交互建模，从粗粒度学习用户兴趣到细粒度商品预测，提升推荐准确性。关键创新在于意图编码器处理用户长期兴趣，商品编码器关注短期动态，结合Transformer架构和位置编码增强预测能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#论文题目：Coarse-to-Fine Sparse Sequential Recommendation（CaFe：从粗粒度到细粒度的稀疏序列推荐）
#论文地址：https://arxiv.org/pdf/2204.01839.pdf
#论文源码开源地址：暂无
#论文所属会议：SIGIR’22
#论文所属单位：Amazon

一、创新点

本文是一篇针对序列推荐的短文，主要想解决的问题是现阶段提出的采用自注意力机制的算法无法很好的应对稀疏矩阵，进而无法很好的对稀疏数据集提供准确性保障。本文提出从粗粒度到细粒度的自注意力方法CaFe。该方法同时从购物意图和交互商品中对用户动态性进行建模，进而显示的从粗粒度到细粒度两个方面学习序列中的蕴含的信息。

意图序列关注的是用户关注的商品中的长期兴趣偏好，商品序列则重点关注用户短期的偏好。

CaFe从粗粒度的序列中学习用户的意图信息，进而提供高质量的用户意图表征。
CaFe将意图表征融合到商品编码器输出中，提升商品表征性。
CaFe结合两种表征进行后续商品的预测交互并得到用户接下来的动机。

二、导读

2.1 问题定义

给定商品集合 $V$ ，意图集合 $C$ ， $∣ C ∣$ << $∣ V ∣$ ，用户集合 $U$ ，交互序列集合为 $S$ ={S₁, S₂, …, S_|U|}。每一个v∈ $V$ ，都有一个c∈ $C$ 与之相对应。用户的交互数据表示为S_u={s₁^u, …, s_|Su|}，其中，s_i^u=(v_i^u, c_i^u)。给定交互序列，我们想要预测v_|Su|+1^u。
在这里插入图片描述

2.2 自注意力推荐

本文采用的总体框架为SASRec，即给定近期用户和商品的交互序列，采用自注意力机制来挖掘用户行为序列的关系。这里对SASRec做简要的介绍，详细可以点击链接或阅读文章的第2节。

Embedding层：Embedding层对交互序列中的商品进行编码，结合对应位置的embedding构成最终的序列embedding；
Transformer编码器：这部分采用多头自注意力机制，经过多个自注意力层得到输出。v_i在经过 $l$ 次自注意力层后得到矩阵H_i^l∈ $∣ R$ ^d，且H_i⁰=e_i+p_i。输出的多头注意力可以通过如下公式进行计算。（要求j>i，因为只能之前的行为对之后的行为有影响，反之不行。）

W_Q^(m), W_K^(m), W_V^(m)∈ $∣ R$ ^d×d/M是第m层可学的投影矩阵，W_O∈ $∣ R$ ^d×d是将输出O_i相连接起来的可学习的参数。在上式中要求 j > i，因为只能之前的行为对之后的行为有影响，反之不行。
从O_i得到下一层的矩阵H_i^l+1，为了避免过拟合，我们还需要经过残差网络，正则化操作以及逐点前馈网络得到（和Transformer方法一样）。

三、方法

3.1 方法框架

在这里插入图片描述

3.2 Embedding层

用户u的交互序列 $S$ _u包含商品序列 $S$ _u^v和意图序列 $S$ _u^c，两者对应的embedding分别为 $E$ ^v∈ $∣ R$ ^d×|V|， $E$ ^c∈ $∣ R$ ^d×|C|，d为Embedding的维度，| $V$ |和| $C$ |表示商品和意图集合的大小。两类序列中的位置编码分别表示为 $P$ ^v∈ $∣ R$ ^d×n, $P$ ^c∈ $∣ R$ ^d×n。分别对两个序列进行编码可以得到下式:
在这里插入图片描述
embedding的计算方式和SASRec类似，公式如下：

3.3 从粗到细的编码器

3.3.1 意图编码器

对于意图序列，目的是捕获用户的粗粒度兴趣动态。意图序列通常是稠密的，因为 $∣ C ∣$ 远小于 $∣ V ∣$ 。因此，使用SASRec 模型作为意图序列的编码器。给定意图embedding: $M$ ^c，SASRec 编码器的输出用作意图序列表征 $R$ ^c∈ $∣ R$ ^d×n。

3.3.2 商品编码器

越靠近当前时间的商品的交互，对预测越重要。作者参考了《Locker: Locally Constrained Self-Attentive Sequential Recommendation （CIKM’21）》，对应的商品编码器也是Transformer形式，但增强了关注最近商品的能力。在注意力权重计算中加入掩码分数θ_i,j增强商品编码器中的短期用户动态性建模，之后再带入（3）式。注意力的计算公式 $f$ _att( )如下：
在这里插入图片描述
θ=1时就是标准版的点积注意力机制，exp(w_i,j) · θ_i,j可以写成exp(w_i,j+lnθ_i,j)，lnθ_i,j可以从H_i^l, H_j^l和商品item v_i和v_j的距离矩阵得到：

$W$ _L^(m)∈ $∣ R$ ^d/M×1，b_L∈ $∣ R$ ¹，距离矩阵d_i,j∈ $∣ R$ ^d×2n是距离embedding表中第n+i-j个embedding，W_Q^(m)和W_K^(m)来自式(3)。我们同样经过和上述意图编码类似的步骤将 $M$ ^v输入到自注意力层得到item序列表征 $R$ ^v∈ $∣ R$ ^d×n。使用商品embedding来关注近期的偏好，使用意图序列得到的embedding来关注长期偏好，最终embedding为下式：
在这里插入图片描述

3.3.3 预测

在 CaFe 中，同时用 $R$ ^c和 $R$ 预测下一个意图和商品。采用矩阵分解 (MF) 来计算时间步 𝑡 时，编码器输出和embedding之间的相关性:
在这里插入图片描述 $E$ _j^c∈ $∣ R$ ^d, $E$ _k^v∈ $∣ R$ ^d分别代表了在 $E$ ^c中第j层的意图向量和 $E$ ^v中第k层的item的向量。