论文笔记：Variational Autoencoders for Top-K Recommendation with Implicit Feedback---（2021）

最新推荐文章于 2023-08-28 13:48:51 发布

m0_49315028

最新推荐文章于 2023-08-28 13:48:51 发布

阅读量334

点赞数

文章标签：大数据推荐算法深度学习

本文链接：https://blog.csdn.net/m0_49315028/article/details/125625379

版权

ABSTRACT
变分自动编码器（VAE）已被证明对具有隐式反馈（例如，浏览历史、购买模式等）的推荐系统有效。VAE可以联合学习用户和项目的表示。
我们提出了两个模型：

联合变分自动编码器 (JoVA)，它是两个 VAE 的集合，它联合学习用户和项目表示以预测用户偏好。这种设计允许 JoVA 同时捕获用户-用户和项目-项目相关性。
JoVA-Hinge，它是 JoVA 的扩展，具有基于铰链的成对损失函数，以进一步将其专门用于具有隐式反馈的推荐。
INTRODUCTION
CF技术中的用户偏好以显示反馈（例如评分、评论等）或隐式反馈（例如浏览历史、购买历史、搜索模式等）的形式出现。但现实中隐式反馈占大多数，显式反馈比较少，如何更好地利用隐式反馈？隐式反馈自然源自用户行为。
怎么捕捉到用户的潜在表示？怎么捕捉用户和项目的潜在表示？
我们提出了联合变分自动编码器 (JoVA) 模型，它是两个变分自动编码器 (VAE) 的集合，它在不确定性下联合学习用户和项目表示，然后共同预测用户偏好。这种设计使 JoVA 能够同时封装用户-用户和项目-项目相关性。我们还介绍了 JoVA-Hinge，它是 JoVA 的一种变体，它通过成对排名损失扩展了 JoVA 的目标函数，以额外将其专门用于具有隐式反馈的 top-k 推荐。---用户-项目相关性呢？
RECOMMENDATION AND IMPLICIT DATA
我们假设一组𝑛用户𝑈可以与一组𝑚项目𝐼交互（例如，用户点击广告、购买产品、看电影或听音乐）。我们认为用户-项目交互是二元的（例如，用户是否看过特定电影），并用用户隐式反馈矩阵 R ∈ {0, 1}𝑚×𝑛 表示它们，其中 R𝑢𝑖 = 1，如果观察到用户 𝑢 与项目 𝑖 的交互。由于矩阵的每一列（或行）对应于一个特定的项目（或用户），R𝑢和R𝑇𝑖分别表示用户𝑢和项目𝑖的交互向量。我们认为用户 𝑢 与物品 𝐼+ 𝑢 = {𝑖 ∈ 𝐼 | 进行了交互。 R𝑢𝑖 = 1} 并且没有与 𝐼− 𝑢 = 𝐼 \ 𝐼+ 𝑢 相互作用。
我们在 top-k 推荐中的目标是从 𝐼− 𝑢 向用户 𝑢 推荐 𝑘 最喜欢（或可能）的项目。我们预测用户𝑢和𝐼−𝑢之间交互的可能性，然后选择具有最高预测分数的𝑘项目的排名列表推荐给用户𝑢。我们的学习任务是找到一个评分（或似然）函数 𝑓，它可以预测每个用户 𝑢 的交互分数 ^𝑟𝑢𝑖 和未观察到的项目 𝑖 。函数 𝑓 表示为 ^𝑟𝑢𝑖 = 𝑓(𝑢, 𝑖|𝜽)，其中 𝜽 表示模型参数。
什么是潜在表示的不确定性？
JoVA Model
VAE类似于经典的自动编码器，由编码器和解码器构成。编码器首先将输入编码为潜在表示，然后解码器从潜在表示中重建原始输入。VAE通过将输入编码为潜在表示（而不是单点）上的分布来与经典AE区分开来。
VAE 的编码器网络将输入 x 编码为 d 维潜在表示 z，具有先验分布 𝑝 (z)。可以将编码器视为由 𝜙 参数化的后验分布 𝑝𝜙 (z|x)。由于这种后验分布是难以处理的，它通常由变分分布来近似 [4]：

其中两个多元函数𝜇𝜙 (x) 和𝜎𝜙 (x) 将输入 x 映射到均值和标准差向量。在 VAE 中，𝜇𝜙 (x) 和𝜎𝜙 (x) 由推理网络𝑓𝜙 (x) = [𝜇𝜙 (x), 𝜎𝜙 (x)] 公式化。
解码器网络𝑝𝜓 (x|z)，也称为生成网络𝑢。获取 z 并输出（重构）输入数据 x 的概率分布。将编码器和解码器网络放在一起，可以将输入 x 的对数似然下限为

其中 KL 是 Kullback-Leibler 距离，测量分布 𝑞𝜙 (z|x) 和先验分布 𝑝 (z) 之间的差异。这个下界，称为证据下界（ELBO），被最大化用于学习编码器和解码器的参数，分别为𝜙和𝜓。等效地，对于学习 VAE 参数，可以通过使用重新参数化技巧 [7] 的随机梯度下降来最小化作为损失函数的 ELBO 的否定（参见公式 3）。

其中𝜃 = [𝜓，𝜙]。这个损失函数可以看作是重建损失和KL散度的线性组合，作为一个正则化项。最近的研究 [15, 18] 引入了正则化超参数 𝛼，用于控制正则化项（即 KL 损失）和重建损失之间的权衡。由于我们的输入数据 x 是二进制向量（即隐式反馈），我们考虑 VAE 解码器输出的逻辑似然。定义 𝑓 𝜓 (z) = [𝑜𝑖 ] 作为生成网络的输出，输入 x 的逻辑对数似然为

这里，𝜎(𝑥) = 1/(1 + exp(−𝑥)) 是LR逻辑函数。这种逻辑似然将重建损失呈现为交叉熵损失。
JoVA Model.
我们的模型由两个独立的变分自动编码器组成：用户 VAE 和项目 VAE（见图 1）。给定隐式反馈矩阵 R，用户 VAE 逐行重构矩阵（即重构用户向量 R𝑢），而项目 VAE 逐列重构矩阵（即重构项目向量 R𝑇𝑖）。这两个 VAE 独立并同时完成隐式反馈矩阵。最终输出是两个预测隐式矩阵的平均值：R^ = 1 2 (^R𝑢𝑠𝑒𝑟 + ^R𝑖𝑡𝑒𝑚)，其中 R^𝑢𝑠𝑒𝑟 和 ^R𝑖𝑡𝑒𝑚 分别是用户 VAE 和项目 VAE 预测（或完成）的隐式矩阵。我们注意到 ^R ∈ [0, 1]𝑚×𝑛 ，其中每个 ^𝑟𝑢𝑖 表示用户 𝑢 与项目 𝑖 交互的预测可能性。这种自然的概率解释源于我们为 VAE 的输出选择的逻辑似然（见公式 4）。用户 VAE 和项目 VAE 的参数是通过联合损失函数学习的（见下文）。
JoVA模型来捕捉用户-用户和项目-项目的相关性。项目VAE在其潜在表示中嵌入彼此靠近的相似项目以保持它们的相关性，而用户VAE对相似用户执行相同操作。这两个VAE的联合优化有助于它们微调校准，以便它们可以在预测中相互补充。项目和用户 VAE 一起可以从用户项目交互中学习互补信息，超出了各自单独学习的范围。
用户-项目之间是否有关联性？

Figure1.JoVA Model.用户和项目 VAE 独立地恢复输入矩阵。最终输出是这两个重构矩阵的平均值。
深度学习模型：采用未加权平均代替加权平均，可以保证提高准确性。
Loss function:

JoVA-Hinge (JoVA-H) 损失函数：

其中LH是成对铰链损失函数，广泛且成功地用于成对排名损失，用于带有隐式反馈的推荐。这里，^𝑟𝑢𝑖是用户𝑢对项目𝑖的预测交互得分（或可能性），𝜆是边际超参数。
铰链损失建立在假设用户𝑢更喜欢他的交互项目𝑖∈𝐼+𝑢而不是未交互项目（或负示例）𝑗∈𝐼−，边距至少为𝜆。我们引入了 𝑢 超参数 𝛽，用于控制铰链损失对 JoVA 目标函数的影响。
EXPERIMENTS
数据集：

我们利用四个常用指标来评估每个用户的预测排名列表的质量𝑢：Precision@k (P@k)；Recall@k (R@k)F1-score@k (F1@k) ;和 NDCG@k。我们报告这些指标的平均值（过度测试用户）。

Exp-1：精度比较。我们将模型和基线的 top-k 推荐的准确性与各种 𝑘 ∈ {1, 5, 10} 进行比较。表 2 报告了所有数据集和方法的 F1-Score 和 NDCG。准确率和召回率的结果在质量上相似。我们的 JoVA-Hinge 在所有数据集和各种 k 上的 F1 度量都优于其他方法。与最佳基线相比，ML1M 中的 F1score@k 提高了高达 3.33%，Yelp 提高了 25%，Pinterest 提高了 33.33%，Netflix 提高了 50%。对于 NDCG，JoVA-Hinge 在 Yelp、Pinterest 和 Netflix 的三个数据集中也显着优于其他方法。
Exp-2：数据有限的用户。我们旨在了解具有不同用户-项目交互次数（即正例）的用户的预测准确性如何变化。对于之前的实验，我们不是计算所有用户的平均准确度，而是计算训练数据中最多有 𝐿 用户-项目交互的用户的平均准确度（同时增加 𝐿）。此设置使我们能够研究用户-项目交互的更多可用性如何影响推荐的准确性。
Exp-3：消融研究。我们的 JoVA-Hinge 包含 User VAE、Item VAE 和 Hinge loss 三个组成部分。为了了解每个组件对 JoVA-Hinge 成功的贡献程度，我们对 JoVA-Hinge 进行了消融研究，移除了其中的一些组件并评估了生成的模型。

CONCLUSION
本文提出了联合变分自动编码器（JoVA）用于具有隐式反馈的top-K推荐及其变体JoVA-Hinge.我们对四个真实世界数据集的实证实验表明，在各种评估指标下，与最先进的方法相比，JoVA-Hinge 显着提高了推荐准确性。
未来工作：结合用户和项目特征（例如，描述、人口统计等）、辅助信息（如，社交网络）、上下文（例如，时间、位置等），或非固定的偏好。