推荐系统笔记二、矩阵分解协同过滤

最新推荐文章于 2024-06-16 12:32:40 发布

AlexInML

最新推荐文章于 2024-06-16 12:32:40 发布

阅读量7.9k

点赞数 3

分类专栏：推荐系统文章标签：推荐系统矩阵分解协同过滤时间信息

本文链接：https://blog.csdn.net/wangjian1204/article/details/50465109

版权

推荐系统专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、概述：

矩阵分解模型是把用户偏好和item属性投影到同一个隐因子空间（latent factor space），以用户偏好和item属性的匹配程度来预测评分。通常推荐系统可以用于模型训练的信息主要有用户的显式反馈、隐式反馈和时间信息等。显式反馈（explicit feedback）：用户直接表明对item的兴趣，例如评分[1,2,3,4,5]. 隐式反馈（implicit feedback）：通过观察用户行为得到的信息，例如浏览历史、搜索记录等。

二、符号定义和度量标准：

U：用户集合；I：item集合；
R：评分集合， $r_{ui}$ 表示用户 $u\in U$ 对item $i\in I$ 的评分； $\hat{r}_{ui}$ 表示预测评分；
K：(u,i)集合，且评分 $r_{ui}$ 已知；
$t_{ui}$ ：用户u对item i评分的时间；
$U_i$ ：已经给item i打分的用户集合； $I_u$ ：已经被用户u打分的item集合；

评价推荐系统时最重要的两个问题是评分准确率和Top-N推荐问题。评分准确率问题常用的度量标准有Root Mean Squared Error （RMSE），Precision，Recall等。Top-N推荐常用的度量标准有NDCG，Average Reciprocal Hit-Rank（ARHR）等。

三、偏置项：

矩阵分解模型是把用户偏好和item属性投影到同一个隐因子空间（latent factor space），以用户偏好和item属性的匹配程度来预测评分。但是，仅仅这样是不够的，例如A和B两个用户的偏好类似，但是A比较容易满足，倾向于给item打高分；而B倾向于给item打低分（Item上也有类似的情况）。为了解决这个问题，需要为每个用户和item增加一个偏置项。评分 $r_{ui}$ 的偏置部分定义为：

b u i = μ + b u + b i

$\begin{equation} b_{ui} = \mu + b_u + b_i \end{equation}$

其中 $\mu$ 是评分集合R中所有评分的均值， $b_u$ 是用户u的偏置， $b_i$ 是item i上的偏置。可以通过梯度下降算法最优化下面这个式子来求解 $b_u,b_i$ ：

min b * \sum (u, i) \in K (r u i - μ - b u - b i) 2 + λ (\sum u b 2 u + \sum i b 2 i)

$\begin{equation} \min_{b*} \sum_{(u,i)\in K} (r_{ui} - \mu - b_u - b_i)^2 + \lambda(\sum_{u} b_u^2 + \sum_{i} b_i^2) \end{equation}$
正则化项

λ(∑ub2u+∑ib2i) $\lambda(\sum_{u} b_u^2 + \sum_{i} b_i^2)$ 可以避免过拟合。关于梯度下降算法的详细介绍可以参考我的另一篇博文：深入了解梯度下降算法

另外还有一种简单的偏置项计算方法，如下所示：

b i = \sum u \in U i ( r u i - μ ) β 1 + | U i | b u = \sum i \in I u ( r u i - μ - b i ) β 2 + | I u |

$\begin{equation} \begin{split} &b_i = \frac{\sum_{u \in U_i}(r_{ui} - \mu)}{\beta_1 + |U_i|}\\ &b_u = \frac{\sum_{i \in I_u}(r_{ui} - \mu - b_i)}{\beta_2 + |I_u|}\\ \end{split} \end{equation}$
式子中的

β1,β2 $\beta_1,\beta_2$ 是平滑因子。这种方法直接通过解析式计算 偏差均值，计算简单，但是结果准确度较差。

四、SVD矩阵分解：

在推荐系统矩阵分解的发展历程中，有研究员提出先对评分矩阵进行补全，从而可以对一个dense矩阵进行分解。但是这样做有两个缺点：一是补全数据和dense 矩阵分解大大增加了计算量；二是不精确的评分补全会导致结果有较大的偏差。所以目前的研究工作都建议使用原始的稀疏评分矩阵，并且使用正则化项来避免过拟合。

假设用户u投影到f维隐空间后的向量表示为 $p_u \in R^f$ ，item i的隐空间表示为 $q_i \in R^f$ 。隐空间的每一维都表示一个偏好因子，则用户u和item i的匹配程度可以用他们的内积 $q_i^\top p_u$ 来衡量。计算预测评分：

r^u i = μ + b i + b u + q ⊤ i p u

$\begin{equation} \hat{r}_{ui} = \mu + b_i + b_u + q_i^\top p_u \end{equation}$

模型参数 $b_i , b_u , q_i , p_u$ 通过最优化下面这个目标函数获得：

min b i, b u, q i, p u \sum (u, i) \in K (r u i - μ - b u - b i - q ⊤ i p u) 2 + λ {\sum u (b 2 u + ∥ p u ∥ 2) + \sum i (b 2 i + ∥ q i ∥ 2)}

$\begin{equation} \min_{b_i, b_u , q_i , p_u} \sum_{(u,i)\in K} (r_{ui} - \mu - b_u - b_i - q_i^\top p_u)^2 + \lambda\{\sum_{u} (b_u^2+ \parallel p_u\parallel^2) + \sum_{i} (b_i^2 + \parallel q_i\parallel^2)\} \end{equation}$

可以用梯度下降方法或迭代的最小二乘算法求解。在迭代最小二乘算法中，首先固定 $p_u$ 优化 $q_i$ ，然后固定 $q_i$ 优化 $p_u$ ，交替更新。梯度下降方法中参数的更新式子如下（为了简便，把目标函数中的 $\mu + b_i + b_u + q_i^\top p_u$ 整体替换为 $\hat{r}_{ui}$ ）：

$b_u \leftarrow b_u + \alpha (r_{ui} - \hat{r}_{ui} - \lambda b_u)$
$b_i \leftarrow b_i + \alpha (r_{ui} - \hat{r}_{ui} - \lambda b_i)$
$q_i \leftarrow q_i + \alpha ((r_{ui} - \hat{r}_{ui})p_u - \lambda q_i)$
$p_u \leftarrow p_u + \alpha ((r_{ui} - \hat{r}_{ui})q_i - \lambda p_u)$

其中 $\alpha$ 是更新步长。

五、SVD++：

用户的隐式反馈可以提供额外的偏好信息，能在一定程度上提高预测准确性。例如SVD++把用户是否对item打分作为一种隐式反馈。

r^u i = μ + b i + b u + q ⊤ i (p u + | I u | - 1 2 \sum j \in I u y j)

$\begin{equation} \hat{r}_{ui} = \mu + b_i + b_u + q_i^\top (p_u + |I_u|^{-\frac{1}{2}} \sum_{j\in I_u} y_j) \end{equation}$
对于用户u打分的item，增加一个隐偏好属性

yj∈Rf $y_j \in R^f$ ，表示用户u对打分item的某种偏好。正则化项

|Iu|−12 $|I_u|^{-\frac{1}{2}}$ 用于消除用户评分个数的影响。

模型参数 $b_i , b_u , q_i , p_u, y_j$ 通过最优化下面这个目标函数获得：

min b i, b u, q i, p u \sum (u, i) \in K (r u i - μ - b u - b i - q ⊤ i (p u + | I u | - 1 2 \sum j \in I u y j)) 2 + λ {\sum u (b 2 u + ∥ p u ∥ 2) + \sum i (b 2 i + ∥ q i ∥ 2 + ∥ y i ∥ 2)}

$\begin{equation} \begin{split} &\min_{b_i, b_u , q_i , p_u} \sum_{(u,i)\in K} (r_{ui} - \mu - b_u - b_i - q_i^\top (p_u + |I_u|^{-\frac{1}{2}} \sum_{j\in I_u} y_j))^2\\ &+ \lambda\{\sum_{u} (b_u^2+ \parallel p_u\parallel^2) + \sum_{i} (b_i^2 + \parallel q_i\parallel^2 + \parallel y_i\parallel^2)\}\\ \end{split} \end{equation}$
与SVD类似，可以通过梯度下降方法求解参数。

如果要加入多种隐式反馈信息，如收藏、租借等，则在用户偏好属性中加入多个隐式反馈项即可：

r^u i = μ + b i + b u + q ⊤ i (p u + | I 1 u | - 1 2 \sum j \in I 1 u y 1 j + | I 2 u | - 1 2 \sum j \in I 2 u y 2 j + \dots)

$\begin{equation} \hat{r}_{ui} = \mu + b_i + b_u + q_i^\top (p_u + |I_u^1|^{-\frac{1}{2}} \sum_{j\in I_u^1} y_j^1 + |I_u^2|^{-\frac{1}{2}} \sum_{j\in I_u^2} y_j^2 + \cdots) \end{equation}$

六、加入时间信息：

时间信息在推荐中有很重要的地位。一个用户对某个item的评价可能在一年后会发生很大的变化。时间信息可以告诉我们用户在某个时间点对item的喜好程度以及随着时间推移用户偏好的改变。

在SVD模型中，容易随时间发生变化的参数有： $b_u$ 如用户打分的严格程度发生改变； $b_i$ 如item的流行度发生改变； $p_u$ 用户的喜好发生改变。由于item的属性往往是固定不变的，所以可以认为 $q_i$ 是恒定的。下面介绍 $b_u, b_i, p_u$ 各项常用的时间函数表示。

bi项：

b 1 i (t) = b i + b i, B i n (t)

$\begin{equation} b_i^1(t) = b_i + b_{i, Bin(t)} \end{equation}$

bi $b_i$ 是一个常数项偏置，

bi,Bin(t) $b_{i, Bin(t)}$ 是一个分段函数，

Bin(t) $Bin(t)$ 是t所在的分段编号。 例如从2000年到2016年，每一年分为一段，则总共有16段，如果t是2015年的某一天，则 $Bin(t)=16$ 。

b 2 i (t) = b i + b i, B i n (t) + b i, p e r i o d (t)

$\begin{equation} b_i^2(t) = b_i + b_{i, Bin(t)} + b_{i,period(t)} \end{equation}$
和

b1i(t) $b_i^1(t)$ 相比，

b2i(t) $b_i^2(t)$ 增加了一个周期项

bi,period(t) $b_{i,period(t)}$ 用来处理周期性的偏差， 如羽绒服在不同季节评价的偏差。

bu项：

首先构建用户评分偏置的线性渐变模型（例如用户u的平均评分可能越来越高）：定义用户u评分的平均时间为 $t_u$ ，那么在 $t$ 时刻：

d e v u (t) = s i g n (t - t u) \cdot | t - t u | β

$\begin{equation} dev_u(t) = sign(t - t_u)\cdot |t - t_u|^\beta \end{equation}$
参数

β $\beta$ 通过交叉验证获得。

b 1 u (t) = b u + α u \cdot d e v u (t)

$\begin{equation} b_u^1(t) = b_u + \alpha_u\cdot dev_u(t) \end{equation}$
式

b1u(t) $b_u^1(t)$ 每个用户包含两个参数

bu,αu $b_u, \alpha_u$ 。

b 2 u (t) = b u + \sum k u l = 1 e - δ | t - t u l | b u t l \sum k u l = 1 e - δ | t - t u l |

$\begin{equation} b_u^2(t) = b_u + \frac{\sum_{l=1}^{k_u} e^{-\delta |t - t_l^u|} b_{tl}^u}{\sum_{l=1}^{k_u} e^{-\delta |t - t_l^u|}} \end{equation}$
式

b2u(t) $b_u^2(t)$ 设置

ku $k_u$ 个时间点

tu1,...,tuku $t_1^u,...,t_{k_u}^u$ ，参数

δ $\delta$ 通过交叉验证学习得到，

butl $b_{tl}^u$ 从评分数据中学习。

b 3 u (t) = b u + α u \cdot d e v u (t) + b u, t

$\begin{equation} b_u^3(t) = b_u + \alpha_u\cdot dev_u(t) + b_{u,t} \end{equation}$

b3u(t) $b_u^3(t)$ 和

b1u(t) $b_u^1(t)$ 相比，增加了一项

bu,t $b_{u,t}$ ，用于处理每一天有可能产生的突变。 例如用户u在某一天对item 的评分都很高，可能是因为他那天心情很好。

b 4 u (t) = b u + \sum k u l = 1 e - δ | t - t u l | b u t l \sum k u l = 1 e - δ | t - t u l | + b u, t

$\begin{equation} b_u^4(t) = b_u + \frac{\sum_{l=1}^{k_u} e^{-\delta |t - t_l^u|} b_{tl}^u}{\sum_{l=1}^{k_u} e^{-\delta |t - t_l^u|}} + b_{u,t} \end{equation}$
同样的，

b4u(t) $b_u^4(t)$ 在

b2u(t) $b_u^2(t)$ 的基础上增加了

bu,t $b_{u,t}$ 。另外，以上这四种方法都可以添加周期项

bu,period(t) $b_{u,period(t)}$ 来处理用户的周期性偏差。

pu项：

随着时间的改变，用户的喜好也在发生变化，所以把用户的偏好 $p_u$ 作为一个时间函数会比较合适。 $p_u$ 的时间函数和用户的偏置项 $b_u$ 类似，例如：

p u (t) = p u + α u \cdot d e v u (t) + p u, t

$\begin{equation} p_u(t) = p_u + \alpha_u\cdot dev_u(t) + p_{u,t} \end{equation}$

有了前面三项的时间函数，timeSVD++的预测函数如下：

r^ui=μ+bi(tui)+bu(tui)+q⊤i{pu(tui)+|Iu|−12∑j∈Iuyj}

$\begin{equation} \hat{r}_{ui} = \mu + b_i(t_{ui}) + b_u(t_{ui}) + q_i^\top \{ p_u(t_{ui}) + |I_u|^{-\frac{1}{2}} \sum_{j\in I_u} y_j \} \end{equation}$

最后有个问题，预测函数中如何设定未来某一天的参数，如 $b_{u,t}$ ， $p_{u,t}$ ？事实上，在训练模型中加入局部时间项主要是为了获得更好的稳定项（如 $b_u$ ， $\alpha_u\cdot dev_u(t)$ ），所以在预测过程中可以忽略局部时间项（同时这个也无法计算得到），用稳定项来预测评分。

七、参考资料

Recommender Systems Handbook

AlexInML

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
推荐系统笔记二、矩阵分解协同过滤

一、概述：矩阵分解模型是把用户偏好和item属性投影到同一个隐因子空间（latent factor space），以用户偏好和item属性的匹配程度来预测评分。通常推荐系统可以用于模型训练的信息主要有用户的显式反馈、隐式反馈和时间信息等。显式反馈（explicit feedback）：用户直接表明对item的兴趣，例如评分[1,2,3,4,5]. 隐式反馈（implicit feedback）
复制链接

扫一扫

专栏目录