[论文笔记] Improving Collaborative Metric Learning with Efficient Negative Sampling

最新推荐文章于 2024-09-14 09:36:26 发布

THOOOR

最新推荐文章于 2024-09-14 09:36:26 发布

阅读量250

点赞数

分类专栏：论文笔记文章标签：推荐系统

本文链接：https://blog.csdn.net/THOOOR/article/details/119800544

版权

论文探讨了改进协作度量学习（CML）的方法，提出了一种2阶段负采样策略，以解决CML在推荐系统中因大量采样导致的扩展性问题。该策略在保持准确性的同时，减少了流行度偏差，适用于大规模高维场景。

摘要由CSDN通过智能技术生成

论文笔记
 Improving Collaborative Metric Learning with Efficient Negative Sampling (arxiv.org)

Improving Collaborative Metric Learning for Recommendation by a 2-stage negative sampling strategy. (github.com)

基于三元组损失的距离度量学习已成功应用于广泛的应用中，例如人脸识别、图像检索、说话人变化检测以及最近使用协作度量学习 (CML) 模型进行推荐。然而，正如我们在本文中所展示的，由于用于选择三元组的统一负采样策略过于简单，因此 CML 需要大批量才能正常工作。由于内存限制，这使得在高维场景中难以扩展。为了缓解这个问题，我们在这里提出了一种 2 阶段负采样策略，它可以找到对学习具有高度信息量的三元组。我们的策略允许 CML 在准确性和流行度偏差方面有效工作，即使批量大小比默认统一采样所需的数量小一个数量级。我们证明了所提出的推荐策略的适用性，并在各种数据集上展示了一致的积极结果。

距离度量学习旨在表示空间中的数据点，其中邻近性解释了相似性。最近流行的人脸识别、图像检索或说话人变化检测方法将此问题形式化为三重损失优化任务，即最小化： $L=\max(D(a,p)-D(a,n)+\alpha,0)$ ，其中 $D (a, p)$ 是类内（相同标签）样本（锚点和正样本）之间的距离， $D (a, n)$ 是类间（不同标签）样本（锚和负）之间的距离， $\alpha>0$ 是边际常数。主要思想是强制类间对与类内对至少相差 $\alpha$ ，这有利于同一类样本的聚类。但是最小化 L 并不容易，因为可能的三元组的数量随着身份的数量呈三次增长。

此外，一个朴素的统一采样策略会选择 L 的梯度可以忽略不计的平凡三元组。因此，学习可能会很慢并陷入局部最小值。为了解决这个问题，一些工作提出只选择硬样本 $(D (a, p) > D (a, n))$ 进行训练。然而，硬样本挖掘选择具有噪声（高方差）L 梯度的三元组。然后模型可能难以有效地将类间对分开，并最终处于折叠状态。

一个宽松的替代方案是只挖掘半硬样本：三元组，其中负数不一定比正数更接近锚点，但仍会产生严格的正损失。该策略通过避免训练集中的过拟合异常值来提高训练的鲁棒性。它通常在第一次迭代中很快收敛，但最终会用完信息样本并停止取得进展。

可以将这种现象归因于半硬样本的 L 梯度方差集中在一个小区域。为了解决这个问题，他们建议根据它们到锚点的距离来选择负样本。可以证明这种策略导致 L 梯度的方差在更大的范围内传播，从而始终如一地产生信息丰富的三元组。

其处理大规模目录和数据稀疏性的能力使得三重损失模型适用于推荐任务。它确实最近被提出作为 CML 模型，与传统的矩阵分解 (MF) 方法取得了有竞争力的结果。 CML 假设用户和物品可以放置在一个联合的低维空间中。然后，根据它们的欧几里德距离测量的接近度，可以轻松地完成推荐。 CML 可以达到有竞争力的准确性，但我们在本文中表明它需要大批量才能做到这一点，因为它是简单的统一负采样策略。由于内存限制，这使得 CML 无法在高维场景中扩展，例如，在构建混合多媒体推荐系统时，该系统从交互数据和高维物品内容（如音频频谱图）中共同学习。出于这个原因，将默认的统一采样替换为 2 阶段策略，该策略找到对学习始终提供信息的三元组。这使得 CML 能够在均匀采样方面具有竞争力，即使是小批量，无论是在准确性还是流行性偏差方面。

贡献有三方面：

研究了批量大小对 CML 性能的影响；
提出了一个 2 阶段的负采样，它使小批量的 CML 高效；
证明了本文的采样策略在三个真实世界数据集上的适用性，对于 Top-N 推荐任务，在准确性和流行度偏差方面

1. Preliminaries

1.1 问题定义

考虑一个数据集，用户数量为 $N$ ，物品数量为 $M$ ，二元交互矩阵 $R:M\times N$ ， $R_{ij}$ 表示表示第 i 个用户和第 j 个物品之间唯一的正面隐式反馈（例如，点击、收听、查看历史记录等）。使用 $S=\lbrace(i,j)|R_{ij}=1\rbrace$ 表示存在隐式交互的用户-物品对的集合。考虑的任务是预测可能一起交互的物品/用户。