论文笔记:Variational Autoencoders for Top-K Recommendation with Implicit Feedback---(2021)

ABSTRACT
变分自动编码器(VAE)已被证明对具有隐式反馈(例如,浏览历史、购买模式等)的推荐系统有效。VAE可以联合学习用户和项目的表示。
我们提出了两个模型:

联合变分自动编码器 (JoVA),它是两个 VAE 的集合,它联合学习用户和项目表示以预测用户偏好。这种设计允许 JoVA 同时捕获用户-用户和项目-项目相关性。
JoVA-Hinge,它是 JoVA 的扩展,具有基于铰链的成对损失函数,以进一步将其专门用于具有隐式反馈的推荐。
INTRODUCTION
CF技术中的用户偏好以显示反馈(例如评分、评论等)或隐式反馈(例如浏览历史、购买历史、搜索模式等)的形式出现。但现实中隐式反馈占大多数,显式反馈比较少,如何更好地利用隐式反馈?隐式反馈自然源自用户行为。
怎么捕捉到用户的潜在表示?怎么捕捉用户和项目的潜在表示?
我们提出了联合变分自动编码器 (JoVA) 模型,它是两个变分自动编码器 (VAE) 的集合,它在不确定性下联合学习用户和项目表示,然后共同预测用户偏好。这种设计使 JoVA 能够同时封装用户-用户和项目-项目相关性。我们还介绍了 JoVA-Hinge,它是 JoVA 的一种变体,它通过成对排名损失扩展了 JoVA 的目标函数,以额外将其专门用于具有隐式反馈的 top-k 推荐。---用户-项目相关性呢?
RECOMMENDATION AND IMPLICIT DATA
我们假设一组𝑛用户𝑈可以与一组𝑚项目𝐼交互(例如,用户点击广告、购买产品、看电影或听音乐)。我们认为用户-项目交互是二元的(例如,用户是否看过特定电影),并用用户隐式反馈矩阵 R ∈ {0, 1}𝑚×𝑛 表示它们,其中 R𝑢𝑖 = 1,如果观察到用户 𝑢 与项目 𝑖 的交互。由于矩阵的每一列(或行)对应于一个特定的项目(或用户),R𝑢和R𝑇𝑖分别表示用户𝑢和项目𝑖的交互向量。我们认为用户 𝑢 与物品 𝐼+ 𝑢 = {𝑖 ∈ 𝐼 | 进行了交互。 R𝑢𝑖 = 1} 并且没有与 𝐼− 𝑢 = 𝐼 \ 𝐼+ 𝑢 相互作用。
我们在 top-k 推荐中的目标是从 𝐼− 𝑢 向用户 𝑢 推荐 𝑘 最喜欢(或可能)的项目。我们预测用户𝑢和𝐼−𝑢之间交互的可能性,然后选择具有最高预测分数的𝑘项目的排名列表推荐给用户𝑢。我们的学习任务是找到一个评分(或似然)函数 𝑓,它可以预测每个用户 𝑢 的交互分数 ^𝑟𝑢𝑖 和未观察到的项目 𝑖 。函数 𝑓 表示为 ^𝑟𝑢𝑖 = 𝑓(𝑢, 𝑖|𝜽),其中 𝜽 表示模型参数。
什么是潜在表示的不确定性?
JoVA Model
VAE类似于经典的自动编码器,由编码器和解码器构成。编码器首先将输入编码为潜在表示,然后解码器从潜在表示中重建原始输入。VAE通过将输入编码为潜在表示(而不是单点)上的分布来与经典AE区分开来。
VAE 的编码器网络将输入 x 编码为 d 维潜在表示 z,具有先验分布 𝑝 (z)。可以将编码器视为由 𝜙 参数化的后验分布 𝑝𝜙 (z|x)。由于这种后验分布是难以处理的,它通常由变分分布来近似 [4]:

其中两个多元函数𝜇𝜙 (x) 和𝜎𝜙 (x) 将输入 x 映射到均值和标准差向量。在 VAE 中,𝜇𝜙 (x) 和𝜎𝜙 (x) 由推理网络𝑓𝜙 (x) = [𝜇𝜙 (x), 𝜎𝜙 (x)] 公式化。
解码器网络𝑝𝜓 (x|z),也称为生成网络𝑢。获取 z 并输出(重构)输入数据 x 的概率分布。将编码器和解码器网络放在一起,可以将输入 x 的对数似然下限为

其中 KL 是 Kullback-Leibler 距离,测量分布 𝑞𝜙 (z|x) 和先验分布 𝑝 (z) 之间的差异。这个下界,称为证据下界(ELBO),被最大化用于学习编码器和解码器的参数,分别为𝜙和𝜓。等效地,对于学习 VAE 参数,可以通过使用重新参数化技巧 [7] 的随机梯度下降来最小化作为损失函数的 ELBO 的否定(参见公式 3)。

其中𝜃 = [𝜓,𝜙]。这个损失函数可以看作是重建损失和KL散度的线性组合,作为一个正则化项。最近的研究 [15, 18] 引入了正则化超参数 𝛼,用于控制正则化项(即 KL 损失)和重建损失之间的权衡。由于我们的输入数据 x 是二进制向量(即隐式反馈),我们考虑 VAE 解码器输出的逻辑似然。定义 𝑓 𝜓 (z) = [𝑜𝑖 ] 作为生成网络的输出,输入 x 的逻辑对数似然为

这里,𝜎(𝑥) = 1/(1 + exp(−𝑥)) 是LR逻辑函数。这种逻辑似然将重建损失呈现为交叉熵损失。
JoVA Model.
我们的模型由两个独立的变分自动编码器组成:用户 VAE 和项目 VAE(见图 1)。给定隐式反馈矩阵 R,用户 VAE 逐行重构矩阵(即重构用户向量 R𝑢),而项目 VAE 逐列重构矩阵(即重构项目向量 R𝑇𝑖)。这两个 VAE 独立并同时完成隐式反馈矩阵。最终输出是两个预测​​隐式矩阵的平均值:R^ = 1 2 (^R𝑢𝑠𝑒𝑟 + ^R𝑖𝑡𝑒𝑚),其中 R^𝑢𝑠𝑒𝑟 和 ^R𝑖𝑡𝑒𝑚 分别是用户 VAE 和项目 VAE 预测(或完成)的隐式矩阵。我们注意到 ^R ∈ [0, 1]𝑚×𝑛 ,其中每个 ^𝑟𝑢𝑖 表示用户 𝑢 与项目 𝑖 交互的预测可能性。这种自然的概率解释源于我们为 VAE 的输出选择的逻辑似然(见公式 4)。用户 VAE 和项目 VAE 的参数是通过联合损失函数学习的(见下文)。
JoVA模型来捕捉用户-用户和项目-项目的相关性。项目VAE在其潜在表示中嵌入彼此靠近的相似项目以保持它们的相关性,而用户VAE对相似用户执行相同操作。这两个VAE的联合优化有助于它们微调校准,以便它们可以在预测中相互补充。项目和用户 VAE 一起可以从用户项目交互中学习互补信息,超出了各自单独学习的范围。
用户-项目之间是否有关联性?

Figure1.JoVA Model.用户和项目 VAE 独立地恢复输入矩阵。最终输出是这两个重构矩阵的平均值。
深度学习模型:采用未加权平均代替加权平均,可以保证提高准确性。
Loss function:

JoVA-Hinge (JoVA-H) 损失函数:

其中LH是成对铰链损失函数,广泛且成功地用于成对排名损失,用于带有隐式反馈的推荐。这里,^𝑟𝑢𝑖是用户𝑢对项目𝑖的预测交互得分(或可能性),𝜆是边际超参数。
铰链损失建立在假设用户𝑢更喜欢他的交互项目𝑖∈𝐼+𝑢而不是未交互项目(或负示例)𝑗∈𝐼−,边距至少为𝜆。我们引入了 𝑢 超参数 𝛽,用于控制铰链损失对 JoVA 目标函数的影响。
EXPERIMENTS
数据集:

我们利用四个常用指标来评估每个用户的预测排名列表的质量𝑢:Precision@k (P@k);Recall@k (R@k)F1-score@k (F1@k) ;和 NDCG@k。我们报告这些指标的平均值(过度测试用户)。

Exp-1:精度比较。我们将模型和基线的 top-k 推荐的准确性与各种 𝑘 ∈ {1, 5, 10} 进行比较。表 2 报告了所有数据集和方法的 F1-Score 和 NDCG。准确率和召回率的结果在质量上相似。我们的 JoVA-Hinge 在所有数据集和各种 k 上的 F1 度量都优于其他方法。与最佳基线相比,ML1M 中的 F1score@k 提高了高达 3.33%,Yelp 提高了 25%,Pinterest 提高了 33.33%,Netflix 提高了 50%。对于 NDCG,JoVA-Hinge 在 Yelp、Pinterest 和 Netflix 的三个数据集中也显着优于其他方法。
Exp-2:数据有限的用户。我们旨在了解具有不同用户-项目交互次数(即正例)的用户的预测准确性如何变化。对于之前的实验,我们不是计算所有用户的平均准确度,而是计算训练数据中最多有 𝐿 用户-项目交互的用户的平均准确度(同时增加 𝐿)。此设置使我们能够研究用户-项目交互的更多可用性如何影响推荐的准确性。
Exp-3:消融研究。我们的 JoVA-Hinge 包含 User VAE、Item VAE 和 Hinge loss 三个组成部分。为了了解每个组件对 JoVA-Hinge 成功的贡献程度,我们对 JoVA-Hinge 进行了消融研究,移除了其中的一些组件并评估了生成的模型。

CONCLUSION
本文提出了联合变分自动编码器(JoVA)用于具有隐式反馈的top-K推荐及其变体JoVA-Hinge.我们对四个真实世界数据集的实证实验表明,在各种评估指标下,与最先进的方法相比,JoVA-Hinge 显着提高了推荐准确性。
未来工作:结合用户和项目特征(例如,描述、人口统计等)、辅助信息(如,社交网络)、上下文(例如,时间、位置等),或非固定的偏好。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值