贝叶斯个性化排序(BPR)

最新推荐文章于 2023-07-11 12:46:16 发布

〆bird in the pool✘✘

最新推荐文章于 2023-07-11 12:46:16 发布

阅读量584

点赞数

分类专栏： AI的路上

本文链接：https://blog.csdn.net/qq_42057046/article/details/97923643

版权

AI的路上专栏收录该内容

17 篇文章 2 订阅

订阅专栏

前言

排序推荐算法历史很悠久，早在做信息检索的各种产品中就已经在使用了，排序推荐算法大体上可以分为三类

第一类排序算法类别是点对方法(Pointwise Approach)，这类算法将排序问题被转化为分类、回归之类的问题，并使用现有分类、回归等方法进行实现
第二类排序算法是成对方法(Pairwise Approach)，在序列方法中，排序被转化为对序列分类或对序列回归。所谓的pair就是成对的排序，比如(a,b)一组表明a比b排的靠前。BPR就属于这一类。
第三类排序算法是列表方法(Listwise Approach)，它采用更加直接的方法对排序问题进行了处理。它在学习和预测过程中都将排序列表作为一个样本。排序的组结构被保持。

BPR

基本概念

BPR算法将任意用户u对应的物品进行标记，如果用户u在同时有物品i和j的之后点击了i,那么我们得到了一个三元组 <u,i,j> 这个三元组表示对用户u来说，i的排序要比j靠前，如果对于用户u来说我们有m组这样的反馈，那么我们就可以得到m组用户u对应的训练样本。

贝叶斯排序，听他的名字我们便知道和贝叶斯肯定有关系，我们现在需要两个假设：

1. 一是每个用户之间的偏好行为相互独立，即用户u在商品i和j之间的偏好和其他用户无关。

2. 二是同一用户对不同物品的偏序相互独立，也就是用户u在商品i和j之间的偏好和其他的商品无关。

下面我们为了描述方便使用符号>u来描述用户u的偏好，上面的<u,i,j>可以表示为：i>uj

BPR中，我们用到的类似于矩阵分解的思想，对于用户集U和物品集I对应的U*I的预测排序矩阵，我们期望得到两个分解后的用户矩阵 $W (∣ U ∣ \times k)$ 和物品矩阵 $H (∣ I ∣ \times k)$ ，满足： $\overline{X} =WH^T$ 这里的k和funkSVD类似，也是自己定义的，一般远远小于 $∣ U ∣, ∣ I ∣$ 。
由于BPR是基于用户维度的，所以对于任意一个用户u，对应的任意一个物品i我们期望有： $\overline{x}_{ui} = w_u \bullet h_i = \sum\limits_{f=1}^kw_{uf}h_{if}$ 我们最终的目的是希望寻找合适的矩阵W,H，让 $\overline{X}$ 和 $X$ 最相似。读到这里，也许你会说，这和funkSVD之类的矩阵分解模型没有什么区别啊？的确，现在还看不出，下面我们来看看BPR的算法优化思路，就会慢慢理解和funkSVD有什么不同了。

BPR最优化算法推导

BPR 基于最大后验估计 $P(W,H|>_u)$ 来求解模型参数 $W, H$ 下面的公式中, $\theta$ 表示参数 $W, H$ , $gt;_u$ 表示用户u对应的所有商品的全序关系，我们现在的优化目标是 $P(\theta|>_u)$ ,而这里便用到了贝叶斯公式，如下： $P(\theta|>_u) = \frac{P(>_u|\theta)P(\theta)}{P(>_u)}$

我们在前面已经假设了用户之间的偏好，用户对物品的偏好都是相互独立的，正因为所具有的独立性，我们才能使用贝叶斯公式进一步推导，也正因为我们已经假设了用户的排序和其他用户无关，因此，对于任意一个用户u来说， $P(>_u)$ 对所有的物品来说又是一样的，因此我们可以得到下面的公式 $P(\theta|>_u) \propto P(>_u|\theta)P(\theta)$ 因此我们现在的优化目标就转到了对 $P(\theta|>_u) \propto P(>_u|\theta)P(\theta)$

我们可以将公式 $P(\theta|>_u) \propto P(>_u|\theta)P(\theta)$ 的优化分为两部分，第一部分和样本数据集D有关，第二部分和样本数据集D无关。

对 $P(>_u|\theta)$
对 $P(\theta)$

首先我们先看第一部分

对于第一部分，由于我们假设每个用户之间的偏好行为相互独立，同一用户对不同物品的偏序相互独立，所以有： $\prod_{u \in U}P(>_u|\theta) = \prod_{(u,i,j) \in (U \times I \times I)}P(i >_u j|\theta)^{\delta((u,i,j) \in D)}(1-P(i >_u j|\theta))^{\delta((u,j,i) \not\in D) }$ 其中 $\delta(b)= \begin{cases} 1& {if\; b\; is \;true}\\ 0& {else} \end{cases}$ 补充这里讲一下排序公式 $gt;_u$ 的完全性，反对称性和传递性

1. 完整性： $\forall i,j \in I: i \neq j \Rightarrow i >_u j\; \cup\; j>_u i$
2. 反对成性 $\forall i,j \in I: i >_u j\; \cap\; j>_u i \Rightarrow i=j$
3. 传递性 $\forall i,j,k \in I: i >_u j\; \cap\; j>_u k \Rightarrow i>_uk$

由于第一部分的样本数据集合D有关，根据上面讲到的完整性和反对称性，优化目标的第一部分可以简化为： $\prod_{u \in U}P(>_u|\theta) = \prod_{(u,i,j) \in D}P(i >_u j|\theta)$ 而对于 $P (i > u j ∣ θ)$ 这个概率，我们可以使用下面这个式子来代替: $>_u j|\theta) = \sigma(\overline{x}_{uij}(\theta))$
这里的 $\sigma(x)$ 是sigmoid函数。在这里我们不一定非要用sigmoid函数，还可以使用其他的函数，这里不一一列举。

我们现在继续分解，对于式子 $\overline{x}_{uij}(\theta)$ 我们要满足当 $i >_u j$ 时, $\overline{x}_{uij}(\theta) > 0$ ,反之，当 $j>_u$ 时， $\overline{x}_{uij}(\theta) < 0$ ,最简单的表示这个性质的方法就是(下面的式子我也不太明白，暂时记住就行) $\overline{x}_{uij}(\theta) = \overline{x}_{ui}(\theta) - \overline{x}_{uj}(\theta)$
而 $\overline{x}_{ui}(\theta) , \overline{x}_{uj}(\theta)$ ，就是我们的矩阵X¯¯¯¯对应位置的值。这里为了方便，我们不写θ,这样上式可以表示为: $\overline{x}_{uij} = \overline{x}_{ui} - \overline{x}_{uj}$

最终我们可以将第一部分的优化目标转化为： $\prod_{u \in U}P(>_u|\theta) = \prod_{(u,i,j) \in D} \sigma(\overline{x}_{ui} - \overline{x}_{uj})$

接下来我们对第二部分进行优化推导

这里原作者大胆的使用了贝叶斯假设，即这个概率分布符合正态分布，且对应的均值为0，协方差矩阵是 $\lambda_{\theta}I$ ,即 $P(\theta) \sim N(0, \lambda_{\theta}I)$ 为什么这么假设呢，这里认为是为了方便优化，在后面左右画室，需要计算 $lnP(\theta)$ ,对于上面假设的这个多维正态分布，其对数和 $θ||^2$ 成正比。即： $lnP(\theta) = \lambda||\theta||^2$

最终最大对数后延估计函数 $ln\;P(\theta|>_u) \propto ln\;P(>_u|\theta)P(\theta) = ln\;\prod\limits_{(u,i,j) \in D} \sigma(\overline{x}_{ui} - \overline{x}_{uj}) + ln P(\theta) = \sum\limits_{(u,i,j) \in D}ln\sigma(\overline{x}_{ui} - \overline{x}_{uj}) + \lambda||\theta||^2\;$ 用梯度上升法或者牛顿法等方法来优化求解模型参数。这里用梯度上升法，对θ求导，我们有： $\frac{\partial ln\;P(\theta|>_u)}{\partial \theta} \propto \sum\limits_{(u,i,j) \in D} \frac{1}{1+e^{\overline{x}_{ui} - \overline{x}_{uj}}}\frac{\partial (\overline{x}_{ui} - \overline{x}_{uj})}{\partial \theta} + \lambda \theta$
又由于 $\overline{x}_{ui} - \overline{x}_{uj} = \sum\limits_{f=1}^kw_{uf}h_{if} - \sum\limits_{f=1}^kw_{uf}h_{jf}$ 因此我们可以求出 $\frac{\partial (\overline{x}_{ui} - \overline{x}_{uj})}{\partial \theta} = \begin{cases} (h_{if}-h_{jf})& {if\; \theta = w_{uf}}\\ w_{uf}& {if\;\theta = h_{if}} \\ -w_{uf}& {if\;\theta = h_{jf}}\end{cases}$

BPR算法流程

BPR的算法训练流程如下
输入：训练集D三元组，梯度步长α，正则化参数λ,分解矩阵维度k。　　　　　　　　　　
输出：模型参数，矩阵W,H
　　　1. 随机初始化矩阵W,H
　　　2. 迭代更新模型参数： $w_{uf} =w_{uf} + \alpha(\sum\limits_{(u,i,j) \in D} \frac{1}{1+e^{\overline{x}_{ui} - \overline{x}_{uj}}}(h_{if}-h_{jf}) + \lambda w_{uf})$ $h_{if} =h_{if} + \alpha(\sum\limits_{(u,i,j) \in D} \frac{1}{1+e^{\overline{x}_{ui} - \overline{x}_{uj}}}w_{uf} + \lambda h_{if})$ $h_{jf} =h_{jf} + \alpha(\sum\limits_{(u,i,j) \in D} \frac{1}{1+e^{\overline{x}_{ui} - \overline{x}_{uj}}}(-w_{uf}) + \lambda h_{jf})$
　　 3. 如果W,H收敛,则算法结束，输出W,H，否则回到步骤2.

当我们拿到W,H后，就可以计算出每一个用户u对应的任意一个商品的排序分： $\overline{x}_{ui} = w_u \bullet h_i$ ，最终选择排序分最高的若干商品输出。