【推荐系统算法】DPMF(Dependent Probabilistic Matrix Factorization).中篇

最新推荐文章于 2024-06-11 09:16:16 发布

shenxiaolu1984

最新推荐文章于 2024-06-11 09:16:16 发布

阅读量2.8k

点赞数 3

分类专栏：论文解读文章标签：算法贝叶斯概率论推荐系统

本文链接：https://blog.csdn.net/shenxiaolu1984/article/details/50496863

版权

论文解读专栏收录该内容

28 篇文章 28 订阅

订阅专栏

Adams, Ryan Prescott, George E. Dahl, and Iain Murray. “Incorporating side information in probabilistic matrix factorization with gaussian processes.” arXiv preprint arXiv:1003.4944 (2010).

上一篇博客介绍了DPMF方法的概率模型，本篇博客继续讨论该论文的求解和预测。

优化

历史比赛的主客场得分 $Z O, Z D$ 已知，需要估计模型参数 $\theta,\mu,L,\sigma,\rho$ 。为了便于求解，同时估计高斯过程 $f$ 。
这里写图片描述

采用MCMC方法，在已知数据的条件下，每次固定其他变量，写出待求变量的条件概率。根据这个概率（目标分布）对此变量进行采样，采样结果用来更新此变量的取值。
为了明确起见，再次列出各个变量的尺寸。

$ZO_s,ZD_s,YO_s,YD_s$	$U_{m(s)}, f_{m(s)}^U$	$V_{n(s)},f_{n(s)}^V$	$L^U,L^V$	$x$	$\theta^U, \theta^V$
$1\times 1$	$\times K$	$\times K$	$\times K$	$\times 1$	$\times 1$

比赛场次 $s = 1 : S$ ，主队编号 $m = 1 : M$ ，客队编号 $n = 1 : N$ 。一般来说 $M = N$ 。 $x$ : 表示D种辅助信息。例如D=2，同时考虑时间和主客场信息。

以下推导中，用all表示全部隐变量，用others表示出当前更新变量外的其他隐变量。以下推导为了书写简便，省略了一些上标和下标。

特征的协方差 $L^U,L^V$

在源码中认为 $L^U$ 服从一个均匀分布，换言之不知道任何 $L^U$ 的先验信息。目标分布为：
$p(L^U|ZO,ZF,others) \propto p(ZO,ZF|L^U,other) \cdot p(L^U, others) \propto p(ZO,ZD|all) \cdot p(L^U) \propto p(ZO,ZD|all)$

其中
$\prod_s p(ZO_s(x),ZD_s(x)|all)$

已知其他变量条件下，
$[ZO_s(x), ZD_s(x)] \sim N( [YO_s(x),YF_s(x)], \left [\begin{matrix} \sigma^2 \rho \sigma^2 \\ \rho \sigma^2 \sigma^2 \end{matrix} \right] )$

这个概率非常重要，是采样后面几个变量都要用到的。

特征的均值 $\mu^U,\mu^V$

源码中认为 $\mu^U$ 服从高斯分布，其参数 $m_U,c_U$ 人工指定。和前述推导类似：

$p(\mu^U|ZO,ZD,others) \propto p(ZO,ZD|all) \cdot N(\mu^U; m_U, c_U)$

观测误差 $\sigma, \rho$

同样认为 $\sigma, \rho$ 服从均匀分布，不知道任何先验。
$p(\sigma,\rho|ZO,ZD,others) \propto p(ZO,ZD|all)\cdot p(\sigma) \cdot p(\rho) \propto p(ZO,ZD|all)$

以上三类变量都根据目标分布，采用slice sampling方式进行采样，对变量进行更新。

独立特征 $f^U,f^V$

同样认为 $f^U,f^V$ 服从均匀分布，不知道任何先验。
$p(f_{m(s)}^U|ZO,ZD,others) \propto p(ZO,ZD|all)\cdot p(f^U) \propto p(ZO,ZD|all)$

采用elliptical slice sampling进行采样，用采样结果更新 $f^U,f^V$ 。
要逐个更新 $M$ 个进攻特征 $f_m^U$ ，以及 $N$ 个防守特征 $f_n^V$ 。更新一个特征时，要使用当前最新的其他特征。

超参数 $\theta^U,\theta^V$

主场队伍 $m$ 的进攻超参数为 $\theta_m^U$ ，客场队伍 $n$ 的防守超参数为 $\theta_n^V$ 。（以下书写略去U,V）

队伍 $m$ 在历史上的所有主场比赛相当于对高斯过程 $f_m^U$ 进行了多次采样。
队伍 $m$ 的主场比赛数量记为 $J (m)$ ，得分记为 $g_m^U$ 。 $g_m^U$ 的所有元素服从联合高斯分布，其均值为0，协方差矩阵由超参数 $\theta_m$ 和 $J (m)$ 场比赛中的辅助信息 $x$ 共同确定。

举例：某一年联赛共有31支球队参加，则 $M = 31$ ， $f^U \sim M\times K, f_m^U \sim 1\times K$ 。共进行了1200场比赛，则 $S = 2501$ 。某一队伍m在主场打了82场， $g_m \sim J(m) \times K$ 。

在已知观测数据，以及联合高斯随机变量 $g_m$ 的前提下，求解其相关性参数 $\theta_m$ ，有经典的reparameterization方法，其粗略原理可以参看这篇博客。

具体来说，记 $\theta_m$ 对应的协方差矩阵为 $L(\theta_m)$ 。首先计算一个尺寸为 $J(m)\times K$ 的隐变量 $\nu_m = L(\theta_m)^{-1}\cdot g_m$ 。而后用以下概率对 $\theta_m$ 进行采样：
$p(\theta_m|ZO,ZD,others) \propto p(ZO,ZD|all)$
$p (Z O, Z D ∣ a l l)$ 的计算方法和之前一样，只不过涉及到的 $f_m$ 由 $\nu_m$ 和当前采样的 $\theta_m$ 计算而来： $f_m = L(\theta_m) \cdot \nu_m$ 。