SSBPR: Symmetric Bayesian Personalized Ranking With Softmax Weight

一、概述

这篇文章是关于一种称为Symmetric Bayesian Personalized Ranking With Softmax Weight的推荐算法的研究。推荐系统是为了提供个性化服务而设计的工具,在许多应用中存在两种类型的反馈:显式反馈和隐式反馈。显式反馈是用户对物品的评分,而隐式反馈是用户在系统中的行为,如浏览或购买记录。本文的重点是隐式反馈下的成对偏好学习。

文章首先介绍了目前流行的偏好学习方法,包括基于成对偏好关系的方法和基于点对偏好关系的方法。然而,基于成对偏好关系的方法通常假设用户更喜欢与之交互过的物品,而不太适用于一些情况。为了克服这个问题,近年来出现了一些新的方法,如基于物品集的成对偏好(CoFiSet)和非对称的成对偏好(ABPR包括与两个物品相关的水平偏好和与用户角度的两个用户组相关的新的垂直偏好)模型。然而,这些方法都有一些局限性(CoFiSet仅基于物品集的水品成对偏好而不考虑垂直偏好。另一方面,ABPR中的水平成对偏好仍然局限于两个物品,因此CiFiSet和ABPR方法之间的缺点可以通过彼此的优点来弥补)。

为了解决这些问题,本文提出了一种新颖的对称成对偏好假设,将CoFiSet和ABPR方法无缝的集成到统一的方法中,并使用加权平均和softmax函数来定义整体偏好,从而更好地发现用户的偏好模式。隐式反馈数据集具有一个独特的属性,即每个(用户,物品)对的交互频率不同,而CoFiSet和ABPR中使用的方法是将所有对的偏好取算术平均值作为整体偏好。然而,算术平均值不考虑交互频率的影响,因此,无法深入了解用户的行为。而加权平均值具有不同交互频率的每个(用户,物品)对的偏好一不同方式对最终的整体偏好的贡献能力。在对称成对偏好假设和胶圈平均值的基础上,文章介绍了一种新的推荐算法,称为Symmetric BPR with Softmax weight (SSBPR),用于改进推荐质量。通过对多个公共数据集进行广泛的实证研究,证明了新算法在推荐性能上的显著优势。

总结来说,本文的主要贡献包括引入了对称成对偏好假设,提出了基于加权平均和softmax函数的整体偏好定义,以及设计了一种新的推荐算法SSBPR。实验证明,SSBPR方法在多个公共数据集上明显优于几种现有方法,为隐式反馈下的个性化推荐提供了一种有效的方法。

二、个性化推荐系统中进行成对偏好学习的任务和假设

这段文本描述了在个性化推荐系统中进行成对偏好学习的任务和假设。假设我们已经收集了一组隐式反馈数据,其中包含了n个用户和m个物品,表示为R = {(u, i)} ⊆ U × I,其中每个(u, i) ∈ R表示用户u与物品i的交互。符号U和I分别表示用户和物品的集合。对于每个用户u ∈ U,我们使用Iu来表示用户u与之交互的物品集合。对于每个物品i ∈ I,我们使用Ui来表示与物品i交互的用户集合。rui表示用户u对物品i的真实偏好,而ˆrui表示用户u对物品i的估计偏好。成对偏好学习的任务是为给定用户u提供两个不同物品i和j之间的个性化排序,表示为>u = {i >u j:i,j ∈ I,i ≠ j,u ∈ U}。成对偏好学习中存在四个主要的假设:

1) 假设1:用户u更喜欢已交互的物品i而不是未交互的物品j,即ˆrui > ˆruj。

2) 假设2:用户u更喜欢已交互的正样本物品集合PIu而不是未交互的负样本物品集合NIu,即ˆruPI > ˆruNI,其中PI ⊆ Iu,NI ⊆ I\Iu。

3) 假设3:用户u更喜欢已交互的物品i而不是未交互的物品j,并且物品i也更受已交互用户u喜欢而不是未交互用户w的喜欢,即ˆrui > ˆruj,ˆrui > ˆrwi。

4) 假设4:用户u更喜欢已交互的物品i而不是未交互的物品j,并且物品i更受已交互用户组PUi喜欢而不是未交互用户组NUi的喜欢,即ˆrui > ˆruj,ˆrPUi > ˆrNUi,其中PU ⊆ Ui,NU ⊆ U\Ui。

以上四个假设可以分为两大类别。第一类包括第一和第二个假设,仅考虑物品之间的水平偏好关系;而另一类包含后两个假设,还额外考虑了用户之间的垂直偏好关系。需要注意的是,如果PI = {i}和NI = {j},则假设1是假设2的特例;如果PU = {u}和NU = {w},则假设3是假设4的特例。然而,假设2仅考虑了水平成对偏好关系,而假设4仍然比较了两个单独物品之间的偏好差异。

在文中,作者采用了矩阵分解作为预测规则,例如ˆrui = Uu·VT i·,其中Uu· ∈ R1×d和Vi· ∈ R1×d是用户u和物品i的潜在特征向量。由于Uu·和Vi·的维度对本文的重点不是主要关注点,因此假设它们的维度为16。

三、本文的方法

现有的研究表明假设2和假设4是有效的;然而,它们是以分离的方式进行研究的。如果这两个假设能够结合起来,预计表现会更好。此外,现有的MSO和MGO中计算整体偏好的方法在某种程度上是不合适的。为了更好地发现用户的偏好模式,我们提出了一个新的、综合的假设,并设计了加权平均值来表示新的排名算法中的整体偏好。

3.1 Symmetric Pairwise Preference Assumption

在给定的文本中,作者提出了对称成对偏好假设,旨在更好地表示用户和物品之间的成对偏好关系。该假设结合了已有研究中的假设2和假设4,并通过设计一个统一的假设来覆盖水平和垂直成对偏好关系。假设5中存在两种偏好关系,即水平成对偏好和垂直成对偏好。作者使用对数似然函数来描述这两种偏好关系,并引入一个调整参数α来权衡水平和垂直对数似然。

最终,作者定义了一个单一的对数似然函数来表示整体偏好,并提出了一个新的排名算法。然而,如何适当地定义ˆruPI和ˆrPUi仍然是一个需要解决的问题,需要在实证研究中进行进一步探索。

3.2 Softmax Weight Replaces Arithmetic Average

在设计用于发现隐式反馈中用户偏好模式的算法时,作者观察到一个人可能多次与同一物品进行交互,如在在线购物中多次购买同一物品,在音乐平台上经常收听同一首歌曲,或者经常去同一家餐馆等。基于这一观察,作者提出了两种定义:

1) 二进制信息(Binary Information,简称BI):指的是用户是否与物品进行交互的信息。
2) 频率信息(Frequency Information,简称FI):指的是每个交互的(用户,物品)对的交互频率信息。

在设计算法时,BI和FI都是重要的信息源。二进制信息帮助我们学习用户的基本偏好模式,即用户更喜欢他们已经交互过的物品。通过二进制信息,我们可以将物品集合分为两个不重叠的部分(已交互部分和未交互部分),从而构建训练数据来训练模型。与此同时,频率信息作为一种补充信息源,可以深入了解用户的偏好模式。例如,对于给定的物品A和一个包含用户u和用户v的用户组,他们与物品A的交互频率分别为5和1,我们可以有信心地得出结论,物品A对用户u的偏好程度高于对用户v的偏好程度。通过观察频率信息的影响,我们认识到每个交互对(u,i)的偏好并不相同,如果只考虑二进制信息,是无法得到这一点的。

为了进一步推进研究,作者利用加权平均值来解决ABPR和CoFiSet中算术平均值的基本局限性。相应的权重系数通过softmax函数来计算,基于交互频率。加权平均值的基本思想是,每个交互对(u,i)的偏好根据相应的交互频率对整体偏好产生不同的贡献,这有助于更好地理解用户的行为。基于softmax函数的加权平均值的效果从梯度下降的角度进行了详细阐述。

在每个六元组(u,i,PUi,NUi,PIu,NIu)中,作者引入了加权系数来表示FI,其中PIu和PUi的FI分别表示为{nu1,...,nui|PI|}和{nu1i,...,nu|PU|i}。权重系数由交互频率计算得出,并通过softmax函数进行归一化。基于对称成对偏好假设和加权平均值,作者提出了一种新的排名算法称为SSBPR,并定义了SSBPR的对数似然函数。文章中将CoFiSet和ABPR分别标记为BPRH和BPRV,为了展示加权平均值的性能,作者将原始的BPRH和BPRV中的相应公式替换为新的公式,并提出了两种新的方法,即BPRHS和BPRVS。

3.3 Objective Function and Learning Algorithm

对于BPRHS算法,其目标函数定义如下:

对于BPRVS算法,其目标函数定义如下:

SSBPR的目标函数定义如下:

其中Ω(Θ)是正则化项,使用L2正则化。作者采用随机梯度下降(SGD)优化框架来学习模型参数。

BPRHS和BPRVS算法的详细信息可以在补充文件中找到。文章中描述了SSBPR算法的方法,该算法在Algorithm 1中进行了说明。需要注意的是,参数α用于在水平和垂直成对偏好关系之间进行权衡,其值作为输入给定在Algorithm 1中。首先,从训练数据中随机抽样一对(u,i)(line 3)。然后,从Ui \ {u}中随机抽样(|PU|− 1)个用户形成正用户组PU,从U \ Ui中随机抽样|NU|个用户形成负用户组NU(line 4和5),并且从Iu \ {i}中随机抽样(|PI|− 1)个物品形成正物品集PI,从I \ Iu中随机抽样|NI|个物品形成负物品集NI(line 6和7)。然后,使用(8)表示物品集的整体偏好,并使用(9)计算用户组的整体偏好(line 8)。之后,相应地更新模型参数(line 9和10)。重复遍历整个数据集,直到满足停止准则(line 11)。

总体而言,BPRHS、BPRVS和SSBPR方法都利用softmax权重来计算整体偏好,通过考虑交互频率可以更好地理解用户的行为。它们之间最重要的区别在于它们基于不同的成对偏好假设。BPRHS和BPRVS算法分别基于第二和第四个假设,这些假设是在第二节中介绍的现有假设。SSBPR基于第五个假设,该假设比现有假设更全面和有效。因此,我们预期SSBPR方法能够获得更好的性能。

四、总结

这篇文章研究了如何设计一种有效的成对偏好学习算法来进行基于隐式反馈的物品推荐。为了解决现有成对偏好假设的局限性,作者提出了一个合理而全面的假设——对称成对偏好假设。同时,他们使用基于softmax函数的加权平均值来表示物品集和用户组的整体偏好。基于加权平均值,作者开发了两种新方法,分别是BPRHS和BPRVS,以研究加权平均值的效果。此外,基于加权平均值和对称成对偏好假设,作者开发了SSBPR的新算法,该算法提供了一个通用的成对偏好学习框架,可以有效处理隐式反馈。实验结果表明,SSBPR产生的推荐结果优于现有的方法。

在实际应用中,存在大量的上下文信息,例如用户的人口特征和社交关系,这些信息对于提供对用户偏好的全面了解非常有用。作者对未来设计将上下文信息整合到SSBPR算法中的策略非常感兴趣。同时,他们计划使用神经网络重构SSBPR,因为神经网络在表达现实世界数据中包含的非线性方面具有很强的能力,并利用成对比较矩阵来改进SSBPR的计算。

这些未来的研究方向将进一步提升SSBPR算法的性能和适用性。

  • 10
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值