论文链接:https://arxiv.org/abs/2209.06644
摘要:
顺序推荐系统通过捕捉用户的兴趣漂移显示出有效的建议。现有的序列模型有两组:以用户为中心的模型和以项目为中心的模型。以用户为中心的模型基于每个用户的连续消费历史来捕捉个性化的兴趣漂移,但没有明确考虑用户对物品的兴趣是否会持续超过训练时间,即兴趣可持续性。另一方面,以项目为中心的模型考虑了用户的普遍兴趣在训练时间后是否持续,但它不是个性化的。在这项工作中,我们提出了一个利用这两个类别的模型的推荐系统。我们提出的模型捕捉了个性化兴趣的可持续性,表明每个用户对物品的兴趣是否会持续超过训练时间。我们首先制定了一个任务,该任务需要根据用户的消费历史来预测每个用户在最近的训练时间内会消费哪些物品。然后,我们提出了简单而有效的方案来增加用户稀疏的消费历史。大量实验表明,所提出的模型在 11 个真实数据集上优于 10 个基线模型。代码:https://github.com/dmhyun/PERIS。
1 引言
推荐系统已经成为一种不可或缺的技术,可以从大量候选项目目录中为用户提供吸引人的项目(例如产品或服务)[1]。最近的研究集中在顺序推荐系统上,该系统捕捉用户从过去到最近的兴趣,以根据用户的顺序消费历史准确地推荐有吸引力的商品 [10,11,15,16]。根据他们如何利用消费的顺序历史,有两组顺序模型捕获兴趣漂移:i)以用户为中心的模型和 ii)以项目为中心的模型。
以用户为中心的模型根据每个用户消费项目的时间顺序捕捉每个用户对项目的兴趣漂移 [15, 16](图 1a)。因此,以用户为中心的模型可以跟踪随时间推移的个性化兴趣漂移。然而,以用户为中心的模型并没有明确考虑用户的兴趣是否会持续超过训练时间。具体来说,以用户为中心的模型基于下一个项目预测来学习用户表示(图 1a),因此用户表示只反映了用户的兴趣,直到用户最后一次消费。例如,截至 2019 年消费项目的用户的表示仅包含截至 2019 年的用户兴趣,这可能不准确,无法在2022 年(即训练时间之后),由于长期没有消费,例如图 1a 中的一条长红线。
以项目为中心的模型利用所有用户对每个项目的消费历史来捕捉用户对每个项目的普遍兴趣 [10, 27](图 1b)。在最近的一项工作 [10] 中,该模型捕获了用户对每个项目的普遍兴趣是否会持续超过训练时间,这个概念被称为兴趣可持续性。具体来说,它明确预测每个项目是否会在最近一段时间的训练数据中被消费,即图 1b 中的灰色框。因此,与以用户为中心的模型相比,以项目为中心的模型学习到的用户兴趣可以更好地与用户对测试时间(即未来)的兴趣保持一致,因为缩短了用户的时间间隔。捕获最后一个兴趣和测试时间,即图 1b 中的一条短蓝线。然而,该模型仅了解用户的非个性化兴趣是否持续超过训练时间,因此以物品为中心的模型即使对不同口味的用户也为物品分配相同的兴趣可持续性,例如,向一个人推荐普遍饮用的咖啡谁有咖啡因过敏。
受这些限制的启发,我们提出了一个推荐系统,该系统既能利用以用户为中心的模型,也能利用以项目为中心的模型,同时解决缺点。我们的方法,个性化兴趣可持续性感知推荐系统(PERIS),通过预测每个用户将在最近的训练时间段内消费哪些项目来学习每个用户的兴趣可持续性,即图 1c 中的灰色框。因此,PERIS 可以通过考虑每个用户在最近一段时间的训练数据中的消费情况来学习项目的个性化兴趣可持续性,而以用户为中心或以项目为中心的模型都无法学习到这一点。然而,预测每个用户在最近的训练时间段内可能消费的项目并非易事,因为大多数用户对每个项目的消费历史不足,例如,在 Yelp 数据中,用户平均每个项目有 2.6 次交互。为此,我们设计了简单而有效的方案,以内在和外在的方式补充用户稀疏的消费历史。
内在方案基于用户消费的其他项目来增加每个用户对项目的消费历史。它的基本思想是,如果用户最近消费了类似的物品(例如卡布奇诺),则假设用户对某项物品(例如,浓缩咖啡)的兴趣会持续下去。因此,如果用户消费了各种物品,内在方案有利于补充每个用户对某个物品的消费历史。此外,我们设计了外部方案,通过参考其他志同道合的用户的消费历史来补充目标用户的消费历史。这个想法是,我们可以通过志同道合的用户(例如,其他素食者)对这些项目的兴趣来推断目标用户(例如,素食者)对项目(例如,食物)的兴趣。具体来说,外部方案训练模型来预测志趣相投的用户未来的兴趣,以推断目标用户的兴趣。
实验表明,PERIS 在 11 个真实数据集上优于 10 个基线推荐系统,例如通用、以用户为中心和以项目为中心的模型。此外,我们观察到,与基线模型相比,PERIS 在自用户上次消费后的不同时间段内持续提高推荐准确性,这意味着个性化兴趣可持续性有利于准确推断用户的兴趣漂移。此外,我们观察到 PERIS 成功地捕捉到了个性化兴趣的可持续性,而现有的以用户和项目为中心的顺序推荐系统并未完全捕捉到这一点。
2 相关工作
2.1 一般推荐系统
一般推荐系统从一组消费项目中学习每个用户的偏好,即消费项目之间没有订单信息。贝叶斯个性化排名(BPR)[23] 制定了成对排名损失来训练推荐系统。 CML [9]采用度量学习来训练一个推荐系统来满足三角不等式,这是广泛使用的内积运算无法满足的。 TransCF [21] 通过将翻译向量应用于用户和项目来扩展 CML。 SML [14] 还通过结合项目侧训练目标和可训练的边距参数来增强 CML。 SimpleX [17] 是一个基于对比学习的模型,它优于最近的推荐系统,包括基于度量学习的模型。但是,一般模型不利用用户消费历史中的订单信息来跟踪他们的兴趣漂移。
2.2 顺序推荐系统
2.2.1 以用户为中心的顺序模型。
以用户为中心的模型主要利用消费物品的订单信息来跟踪用户的兴趣漂移。基于循环神经网络 (RNN) 的模型 [2] 自然地处理消费项目的顺序性质。类似地,基于卷积神经网络 (CNN) 的模型 [16, 24] 将连续项目视为具有卷积运算的图像,以计算项目之间的交互。与 RNN 和 CNN 相比,SASRec [11] 将自我注意机制 [25] 应用于推荐系统,以捕获消费项目之间的长期依赖关系。 TiSASRec [13] 通过对连续消费项目之间的时间间隔进行建模来扩展 SASRec [11]。最近,LSAN [15] 基于 CNN 和 self-attention 模块捕获消费项目之间的本地和全局交互。
尽管取得了成功,但这些模型并未明确考虑用户的兴趣是否会持续超过训练时间,因为它们取决于下一个项目的预测。 PERIS 通过预测用户在训练时间的最近一段时间内的消费而不是下一个项目预测中的整个训练时间来了解每个用户可能在训练时间之外消费哪些项目。
2.2.2 以项目为中心的序列模型。
以项目为中心的顺序推荐是一个研究不足的话题。与以用户为中心的模型相比,以项目为中心的模型通过利用所有用户对每个项目的消费历史记录来捕获用户对每个项目的一般兴趣漂移。以前的以物品为中心的工作 [27] 考虑到最后一次消费每个物品后的时间段,以预测未来物品的重复消费。 CRIS [10]通过预测每个项目是否在最近的训练时间段内被消费,来了解用户对项目的普遍兴趣是否会持续到未来。最近的以项目为中心的模型 [10] 显示出比以用户为中心的模型更好的推荐准确性。
然而,由于这些模型只学习非个性化的兴趣漂移,它们倾向于推荐一般消费的物品,而不考虑每个用户的口味,例如素食主义者或非素食主义者。 PERIS 通过预测每个用户的消费来捕捉个性化兴趣可持续性来解决这个问题,而不是像在以项目为中心的模型中那样预测所有用户对每个项目的消费。
3 PERIS:提出的方法
我们描述了问题(第 3.1 节)和一项新任务,以预测每个用户对项目的兴趣是否持续超过训练时间(第 3.2 节)。然而,由于用户的消费历史稀疏,仅根据用户固有的消费历史成功执行任务并非易事。为此,我们提出了简单而有效的内在(§3.3)和外在(§3.4)方案来补充用户稀疏的消费历史。此外,我们通过采用传统的偏好学习(§3.5)来补充新引入的任务的标签噪声。我们最后描述了训练损失和推理分数(§3.6)。
3.1 问题表述
令 D = {(𝑢, 𝑖, 𝑡)|用户 𝑢 在时间 𝑡} 与项目 𝑖 交互,作为训练数据,U 和 I 是用户和项目的集合。作为输入,模型采用用户𝑢和用户的消费历史,即ℎ𝑢 = {(𝑖, 𝑡)|用户 𝑢 在时间 𝑡} 与项目 𝑖 进行了交互。在这项工作中,推荐系统为用户推荐前 K 个项目。
3.2 个性化兴趣