机器学习(Machine Learning)笔记系列8：推荐系统(Recommender System)与矩阵分解(Matrix Factorization)

最新推荐文章于 2020-12-19 14:09:12 发布

MyShrimp

最新推荐文章于 2020-12-19 14:09:12 发布

阅读量681

点赞数

分类专栏：机器学习ML

本文链接：https://blog.csdn.net/weixin_43038300/article/details/97812766

版权

机器学习ML 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

基于矩阵分解的推荐系统

推荐值矩阵R里有一些值是已知的,如果我们将R分解为两个矩阵U和P，U的每一行代表一个用户画像向量，P的每一行代表一个物品的画像向量
如果U和P能够分别准备表达用户和物品画像向量,那么U和 $P^T$ 的乘积R*中的值就应该是推荐值
假设用户对物品的喜好的值是取决于几个(假设是k个)因素，我们不知道这些因素是什么,所以我们命名它们为隐性因子
假设用户 $U_i$ 对物品 $P_j$ 的喜好 $R_{ij}$ 是用户画像向量在k个因子上的值与物品画像向量在k个因子上的值的点积 $R_{i j}=\mathrm{U}_{i} \cdot \mathrm{P}_{\mathrm{j}}$
如果能够通过分解推荐值矩阵,使得以上的假设在所有已知的推荐值上面是成立的,我们期望这个方式也可以用于预测未知的推荐值
如下图

理解推荐系统中的矩阵分解

1. 算法假设

评分( Rating)矩阵 $\mathrm{R} \in R^{m \times n}$ 包含了m个用户(user)对n个物品的评分.假设评分矩阵可以分解为用户矩阵 $\mathrm{U} \in R^{m \times k}$ 和 $\in R^{n \times k}$ ,使得 $\mathrm{R} \approx U \times \mathrm{P}^{\mathrm{T}}$
在这里插入图片描述
其中k是矩阵分解的秩，决定了U,P的维度；
$R_{i j} \approx U_{i} \cdot P_{j}$ ；
$R_{i j}$ 为评分( Rating)矩阵第i行,第j列的元素；
$U_i$ 为用户矩阵第i行的向量；
$P_j$ 为物品矩阵第j行的向量；
假设一个评分是由用户和物品的k个影响因子决定的。

2. 算法理解

$R_{i j} \approx U_{i} \cdot P_{j}$ ；
使用电影举例，一部电影是有多个演员，导员，风格，故事情节等构成，任何一个观众都对不同的演员，导演，风格，故事情节有不同的喜好;
如果一部电影的演员，导演，风格，故事情节与某一个观众喜好的演员，导演，风格，故事情节比较吻合（类似），那么理论上观众的打分就会高;
通过矩阵分解，我们并没有显式地找出电影的演员，导演，风格，故事情节，但是我们假设 $U_i$ 就是代表了第i个用户k个这种隐含的喜好特征， $P_j$ 就是代表了第j个电影的k个这种隐含特征.

损失函数

目标函数：
$\begin{aligned} \arg \min _{U, P} \sum_{(i, j) \in Z} \frac{1}{2}\left(R_{i j}-U_{i} \cdot P_{j}\right)^{2}\tag{1} \end{aligned}$
其中Z = {(i,j): $r_{ij}$ 已知}
损失函数：
$\begin{aligned} L_{i j}=\frac{1}{2}\left(R_{i j}-U_{i} \cdot P_{j}\right)^{2}\tag{2} \end{aligned}$

损失函数的梯度

$\begin{aligned} \begin{array}{l}{\frac{\partial L_{i j}}{\partial U_{i}}=\frac{\partial}{\partial U_{i}}\left[\frac{1}{2}\left(R_{i j}-U_{i} \cdot P_{j}\right)^{2}\right]=-P_{j}\left(R_{i j}-U_{i} \cdot P_{j}\right)} \\ {\frac{\partial L_{i j}}{\partial P_{j}}=\frac{\partial}{\partial P_{j}}\left[\frac{1}{2}\left(R_{i j}-U_{i} \cdot P_{j}\right)^{2}\right]=-U_{i}\left(R_{i j}-U_{i} \cdot P_{j}\right)}\end{array}\tag{3} \end{aligned}$

改进的目标函数：加入正则化

$\begin{aligned} \arg \min _{U, P} \sum_{(i, j) \in Z} \frac{1}{2}\left(R_{i j}-U_{i} \cdot P_{j}\right)^{2}+\lambda\left[\sum_{i=1}^{m}\left\|U_{i}\right\|^{2}+\sum_{i=1}^{n}\left\|P_{j}\right\|^{2}\right]\tag{4} \end{aligned}$
$\lambda>0$ 是正则化参数，添加正则化 $\lambda\left[\sum_{i=1}^{m}\left\|U_{i}\right\|^{2}+\sum_{i=1}^{n}\left\|P_{j}\right\|^{2}\right]$ 的目的是防止过拟合（在训练集上误差小，在测试集上误差大）

新的梯度下降更新

设定k的值，设定学习步长 $\lambda$ （learning rate），初始化U和P
重复以下步骤直到均方差满意为止：遍历Z中的(i,j)，Z = {(i,j): $r_{ij}$ 已知}

$\begin{aligned} \begin{array}{l}{U_{i} \leftarrow U_{i}-\gamma \frac{\partial L_{i j}}{\partial U_{i}}} \\ {P_{j} \leftarrow P_{j}-\gamma \frac{\partial L_{i j}}{\partial P_{j}}}\end{array}\tag{5} \end{aligned}$
其中
$\begin{aligned} \begin{array}{l}{\frac{\partial L_{i j}}{\partial U_{i}}=-P_{j}\left(R_{i j}-U_{i} \cdot P_{j}\right)+\lambda U_{i}} \\ {\frac{\partial L_{i j}}{\partial P_{j}}=-U_{i}\left(R_{i j}-U_{i} \cdot P_{j}\right)+\lambda P_{j}}\end{array} \end{aligned}$

基于矩阵分解的推荐系统：关于k

假设推荐系统里面有m个用户，n个物品，那么推荐值矩阵的大小为m行n列
矩阵分解以后，用户矩阵U的大小为m行k列，物品矩阵P的大小为n行k列
k决定了U和P的列数.
从原理上讲，k是我们直觉上认为有多少个隐含的因素决定了一个用户为什么要喜好某个物品.
在现实中，我们无法直接推导出合适的k值，我们一般采用交叉验证（cross validation），通过实验，测试不同的k值产生的平均绝对离差来找到合适的k值.

基于矩阵分解的推荐系统：优点和缺点

优点

相对于协同过滤KNN，矩阵分解后预测一个值的计算量比较小.预测的计算就是求两个向量的点积，预测时的计算复杂度和用户以及物品数量无关.
相对于基于内容的推荐系统，矩阵分解很好的利用了其它用户对物品打分的数据.

缺点

类似于协同过滤KNN，矩阵分解也具有冷启动问题，对于一个新用户，或者一个新物品，因为没有相关的喜好数据，无法做出推荐.
假设了用户画像向量和物品画像向量是通过点积得到推荐值，相当于默认了是线性的关系，事实上可能是更加复杂的非线性关系.

补充

评估推荐系统1：离线测试

给定一个推荐系统数据集合，可以把这个数据集合按照3/7开分为测试数据集合T和训练数据集合U.可以使用U来训练一个推荐系统，然后在测试集T上面做出预测，比较预测值和真实的值.
平均绝对误差：(Mean-Absolute-Error $)=\frac{\sum_{(u, p) \in r}\left|r_{u p}-r_{u p}^{*}\right|}{N}$
其中
N: 测试集中推荐值的总数量
$r_{up}$ :真实的用户u对物品p的推荐值
$r^*_{up}$ :预测的用户u对物品p的推荐值

评估推荐系统2：使用平均绝对离差的问题

忽略了如下情况：

预测的多样性
以新闻网站为例，如果一个用户最喜欢的新闻是体育新闻，难道我们就只应该给此用户推荐体育新闻吗？也许不会有用户喜欢自己的新闻App只出现体育新闻.偶尔加入一些金融，八卦也许更合理.
预测的上下文
对推荐值的预测需要根据用户当前的行为调整，例如一用户相对于<<甄嬛传>>更喜欢<<纸牌屋>>，但是如果用户正在看<<甄嬛传>>的21集，在这个上下文里面需要给<<甄嬛传>>22集的推荐值高于<<纸牌屋>>.
预测的结果排序
预测的物品在呈现给用户的时候总是需要排序的.平均绝对离差是没有考虑排序的情况.实际上，我们可能最关注的是那些推荐值比较高的情况.因为物品太多了，我们可能只会给用户显示前10个推荐值比较大的物品。
如果一个系统在前10个推荐值大的物品的情况下很准确，而对其余1万个推荐值小的物品情况下不太准确，使用平均绝对离差这种评价方法可能会认为这个系统不好，但是真实世界里面这种系统很可能是我们喜欢的好系统
另一种方式：只考虑排名靠前的k个预测值的误差