论文笔记 Bayesian Probabilistic Matrix Factorizationusing Markov Chain Monte Carlo （ICML 2008）

最新推荐文章于 2021-10-22 23:38:17 发布

UQI-LIUWJ

最新推荐文章于 2021-10-22 23:38:17 发布

阅读量632

点赞数 2

分类专栏：论文笔记文章标签：机器学习深度学习自然语言处理

本文链接：https://blog.csdn.net/qq_40206371/article/details/120863684

版权

论文笔记专栏收录该内容

285 篇文章 74 订阅

订阅专栏

0 摘要

低秩矩阵逼近方法是协同过滤中最简单、最有效的方法之一。这类模型通常通过寻找模型参数的MAP估计来拟合数据，这一过程即使在非常大的数据集上也能有效地执行。

然而，除非正则化参数被仔细地调整，否则这种方法很容易过度拟合，因为它找到了参数的单点估计。

本文给出了概率矩阵分解(PMF)模型的完全贝叶斯处理方法，该方法通过对所有模型参数和超参数进行整合使用来自动控制模型容量。

我们表明，贝叶斯PMF模型可以有效地训练使用马尔可夫链蒙特卡罗方法，将其应用到Netflix数据集，其中包含超过1亿电影评级。所得模型的预测精度明显高于使用MAP估计训练的PMF模型。

1 introduction

N个用户对M部电影的N ×M偏好评分矩阵，是由一个D× N的用户系数矩阵U和D×M的因子矩阵V的乘积建模而成的。训练这样的模型相当于在给定的损失函数下找到观测到的N × M目标矩阵R的最佳近似。（使得U和V的乘积接近R）

在实践中，我们通常对预测新用户/电影对的评级感兴趣，而不是估计模型参数。这个观点建议采用贝叶斯方法来解决涉及到整合模型参数的问题。在本文中，我们描述了一个完全贝叶斯处理的概率矩阵分解(PMF)模型。

我们模型的特点是在该模型中使用了马尔可夫链蒙特卡罗(MCMC)方法进行近似推理。在实践中，MCMC方法很少用于大规模的问题，因为实践者认为它们非常慢。在本文中，我们证明MCMC可以成功地应用于大型、稀疏和非常不平衡的Netflix数据集，该数据集包含超过1亿用户/电影评级。

我们还表明，与使用MAP训练的标准PMF模型相比，它显著提高了模型的预测精度，特别是对于不经常使用的用户。（使用MAP的PMF模型，它的正则化参数需要在验证集上经过仔细调整。）

2 PMF （Probabilistic Matrix Factorization）

线性代数笔记：概率矩阵分解 Probabilistic Matrix Factorization （PMF）_UQI-LIUWJ的博客-CSDN博客_pmf模型

PMF的假设条件：

其中表示均值为μ，精度（协方差矩阵的倒数）为α的高斯分布

$I_{ij}$ 表示示性函数，当用户i对电影j有打分的时候，就是1

在这个模型中，学习是通过在固定超参数的电影特征和用户特征的前提下，最大化对数后验来实现的

最大化对数后验概率等价于最小化如下的损失函数：

其中：

$|\dots|_{pro}$ 表示Frobenius 范数，见线性代数笔记：Frobenius 范数_UQI-LIUWJ的博客-CSDN博客）

这种训练过程的主要缺点是需要手动的复杂性控制，这对于使模型很好地泛化至关重要，特别是在稀疏和不平衡的数据集上。

控制模型复杂度的一种方法是寻找合适的正则化参数λU和λV的值。例如，我们可以考虑一组合理的参数值，针对每个参数设置训练一个模型，并选择在验证集上表现最好的模型。然而，这种方法在计算上非常昂贵，因为它需要训练大量模型，而不是单个模型。

我们可以为超参数引入先验，并在参数和超参数上最大化模型的对数后验，从而允许基于训练数据自动控制模型的复杂性。

在下一节中，我们将描述使用MCMC方法集成模型参数和超参数的PMF模型的完全贝叶斯处理，它提供了完全自动的复杂性控制。

3 BPMF （Bayesian Probabilistic Matrix Factorization）

3.1 模型

BPMF的图像化模型是由下图（右）展示的【下图（左）是PMF的图，以作对比】：

和PMF一样观测打分矩阵的概率分布也是如式(1)所示

用户特征矩阵和打分特征矩阵的先验如下：

对于用户特征和电影打分特征的超参数和，它们满足如下的高斯威沙特分布概率统计笔记：高斯威沙特分布_UQI-LIUWJ的博客-CSDN博客

W是有着v0自由度，D×D维度协方差矩阵的威沙特分布，它的概率分布如下：

其中C是正则化长度。为了方便起见，我们令

在我们的实验中，我们令v0=D，W0=I，μ0=0