【2021/序列推荐/对比学习】CauseRec: Counterfactual User Sequence Synthesis for Sequential Recommendation-CSDN博客

本文链接：https://blog.csdn.net/qq_36931982/article/details/128996315

CauseRec是一种用于序列推荐的方法，它通过识别并区分用户历史行为序列中的不可或缺和可有可无概念，生成反事实样本进行对比学习。目标是构建更准确、鲁棒的用户表征，提高推荐系统的性能。该方法包括概念识别、反事实样本生成和损失函数设计等步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章全文首发：码农的科研笔记（公众号）

原文：https://arxiv.org/abs/2109.05261

源码：https://github.com/gzy-rgb/CauseRec

视频：https://dl.acm.org/doi/abs/10.1145/3404835.3462908

1 动机

Accurately characterizing and representing users face several challenges:

Noisy nature of ubiquitous implicit feedbacks
Data sparsity: users interact with a limited number of items

2 方法

模型框图

作者主要是回答一个问题：“如果我们干预观察到的序列，用户表示会是怎样的？”。我们知道用户行为一方面来源于自己兴趣爱好，但同时也来源于随机而为。因此作者假设历史行为序列中存在两个概念（信息）：不可或缺的概念和可有可无的概念。其中不可或缺的概念就是代表用户真实兴趣的有意义方面，而可有可无则是表示噪声信息。对于可有可无的噪声概念信息，可以替换成别的内容得到反事实序列（正样本）应该和原序列较为相似，而对于不可或缺的概念信息，替换成别的内容得到的反事实序列（负样本）应该和原序列存在较大偏差。

2.1【如何识别可有可无/不可或缺的概念】

作者定义item-level concepts和interest-level concepts，其中item-level concepts表示item层面的概念。

item-level concepts：对于序列行为，首先编码每个用户历史行为（得到概念序列） $\in \mathbb{R}^{t \times d}$ ，其中 $X=g_{\theta}\left(x_{u, t+1}\right)$ 表示序列的向量表征， $x_{u,t+1}={y_{u,1:t}}$ 表示用户历史行为。接下来定义一个概念分数，用来衡量概念对于用户兴趣 target item $y$ 的重要性。计算方式如下，其中 $c_i$ 表示序列中第 $i$ 个商品的概念 (concept)， $y$ 表示目标商品的表征， $\phi$ 是相似度函数，本文采用点积。
$p_{i}^{\text { item }}=\phi_{\theta}\left(\mathbf{c}_{i}, \mathbf{y}\right)$
interest-level concepts：由于item层面的计算可能会存在冗余，某些项目可能会共享相似的语义信息，因此作者采用注意力机制进一步计算得到interest层面的概念。计算方式如下，利用注意力机制得到权重，并与原始