正则项的物理意义--概率矩阵分解的角度

闵帆

于 2021-08-15 23:37:36 发布

阅读量287

点赞数 1

分类专栏：推荐系统文章标签：机器学习

本文链接：https://blog.csdn.net/minfanphd/article/details/119720788

版权

推荐系统专栏收录该内容

4 篇文章 0 订阅

订阅专栏

机器学习的优化目标中, 一般会加上参数的正则项. 1 范数, 2 范数都有其物理意义. 本贴根据对论文 Ruslan Salakhutdinov and Andriy Mnih, Probabilistic Matrix Factorization 的学习, 从概率矩阵分解的角度来进行解释.
本贴涉及的数学式子不多, 但写起来稍嫌复杂, 希望读者有点耐心. 毕竟是机器学习的一个坎, 迈过去就好了.

1. 数据

电影评分数据集可以表示为一个矩阵 $\mathbf{R} = [r_{ij}]_{N \times M} \in [0..5]^{N \times M}$ .
其中

$N$ 为用户数量;
$M$ 为电影数量;
$r_{ij}$ 为用户 $i$ 对电影 $j$ 的评分, 特别地, $r_{ij} = 0$ 表示用户 $i$ 并未看过电影 $j$ .

2. 模型

矩阵分解的思路是获得两个低秩矩阵 $\mathbf{U} = [\mathbf{u}_1; \dots; \mathbf{u}_N] = [u_{ik}]_{N \times K} \in \mathbb{R}^{N \times K}$ 和 $\mathbf{V} = [\mathbf{v}_1; \dots; \mathbf{v}_M] = [v_{jk}]_{M \times K} \in \mathbb{R}^{M \times K}$ . $\ll \min\{M, N\}$ , 因此被称为 “低秩”.
如果 $\mathbf{U} \mathbf{V}^{\mathrm{T}}$ 与 $\mathbf{R}$ 非零的部分拟合得好, 则有理由相信为零那部分的值 (未知值) 可以通过这个拟合预测出来.

3. 基本假设

假设: 给定 $\mathbf{U}$ 和 $\mathbf{V}$ , 观测到 $\mathbf{R}$ 的条件概率分布为:
$p(\mathbf{R} \vert \mathbf{U}, \mathbf{V}, \sigma^2) = \prod_{i = 1}^N \prod_{j = 1}^M \left[\mathcal{N}\left(r_{ij} \vert \mathbf{u}_i \mathbf{v}_j^{\mathbf{T}}, \sigma^2\right)\right]^{I_{ij}} \tag{1}$
其中

$\mathcal{N}$ 是有名的高斯分布, $\mathcal{N}(x \vert \mu, \sigma^2) = \frac{1}{\sqrt{2 \pi}\sigma} \exp \left(- \frac{(x - \mu)^2}{2 \sigma^2}\right)$ ;
$\mu = \mathbf{u}_i \mathbf{v}_j^{\mathbf{T}}$ 表示以预测值为均值;
$x = r_{ij}$ 表示观测值;
$I_{ij} = 1$ 当且仅当 $r_{ij} \ne 0$ , 否则 $I_{ij} = 0$ . 从连乘来看, 就表示只关心那些已经有评分的数据;
所有数据一视同仁, 所以用连乘.

说明:

根据子矩阵 $\mathbf{U}$ 和 $\mathbf{V}$ , 用户对 $i$ 对项目 $j$ 的评分预测值为 $\mathbf{u}_i \mathbf{v}_j^{\mathbf{T}}$ . 而真实评分为 $r_{ij}$ . 由于子矩阵的 $K$ 值有限, 而且子矩阵要拟合的是非常多的评分值, 两者通常不会精确地相等. 例如, 预测值为 3.21, 而真实值为 3. 但我们会认为, 如果子矩阵靠谱的话, 预测值与真实值应该差别较小. 或反过来假设: 真实值在预测值左右摆动, 而且越接近后者概率越大. 这一假设可以描述为: 真实值服从以预测值为均值, 某个未知 $\sigma$ 为方差的高斯分布. 作为一个分布, 它适用于所有的预测值与实际值.
我们关心的是所有的已知评分的预测 (拟合) 情况, 因此用连乘式子. 连乘也是概率计算最常用招数.

4. 推导过程

由于我们观测到的是 $\mathbf{R}$ , 需要求的是 $\mathbf{U}$ 和 $\mathbf{V}$ .
根据贝叶斯公式, 忽略参数 $\sigma^2$ 我们可以写
$p(\mathbf{U}, \mathbf{V} \vert \mathbf{R}) = \frac{p(\mathbf{R} \vert \mathbf{U}, \mathbf{V})p(\mathbf{U}, \mathbf{V})}{ p(\mathbf{R})} \tag{2}$
$\mathbf{R}$ 既然是已经观测到的数据, 优化时可以不予以考虑.
假设 $\mathbf{U}$ 与 $\mathbf{V}$ 独立. 则我们可能把优化式子写为
$\argmax_{\mathbf{U}, \mathbf{V}} p(\mathbf{U}, \mathbf{V} \vert \mathbf{R}) = \argmax_{\mathbf{U}, \mathbf{V}} p(\mathbf{R} \vert \mathbf{U}, \mathbf{V})p(\mathbf{U}) p(\mathbf{V}) \tag{3}$
令 $\mathbf{U}$ 和 $\mathbf{V}$ 服从均值为 0 的球形高斯分布, 即
$p(\mathbf{U} \vert \sigma_{\mathbf{U}}^2) = \prod_{i = 1}^N \mathcal{N}\left(\mathbf{u}_i \vert 0, \sigma_{\mathbf{U}}^2 \mathbf{I}\right) \tag{4}$
$p(\mathbf{V} \vert \sigma_{\mathbf{V}}^2) = \prod_{i = 1}^M \mathcal{N}\left(\mathbf{v}_i \vert 0, \sigma_{\mathbf{V}}^2 \mathbf{I}\right) \tag{5}$
由于到处是乘法, 我们使用自然对数将原式写为:
$\begin{aligned}p(\mathbf{U}, \mathbf{V} \vert \mathbf{R}, \sigma^2, \sigma_{\mathbf{U}}^2, \sigma_{\mathbf{V}}^2) = & - \sum_{i = 1}^N \sum_{j = 1}^M I_{ij}\left(\ln(\sqrt{2\pi} \sigma) + \frac{\left(r_{ij} - \mathbf{u}_i^{\mathbf{T}} \mathbf{v}_j\right)^2}{2 \sigma^2}\right)\\ &- \frac{1}{2\sigma_{\mathbf{U}}^2} \sum_{i = 1}^N \mathbf{u}\mathbf{u}^{\mathrm{T}} - \frac{1}{2}NK \ln \sigma_{\mathbf{U}}^2\\ &- \frac{1}{2\sigma_{\mathbf{V}}^2} \sum_{i = 1}^M \mathbf{v}\mathbf{v}^{\mathrm{T}}- \frac{1}{2}MK \ln \sigma_{\mathbf{V}}^2 + C \end{aligned} \tag{6}$
由于 (6) 式诸多项与参数无关, 最大化 (6) 就简化为
$\min E = \sum_{i = 1}^N \sum_{j = 1}^M I_{ij}\left(r_{ij} - \mathbf{u}_i^{\mathbf{T}} \mathbf{v}_j\right)^2 + \frac{\lambda_\mathbf{U}}{2} \|\mathbf{U}\|_F^2 + \frac{\lambda_\mathbf{V}}{2} \|\mathbf{V}\|_F^2$
其中 $\lambda_\mathbf{U} = \sigma^2 / \sigma_{\mathbf{U}}^2$ , $\lambda_\mathbf{V} = \sigma^2 / \sigma_{\mathbf{V}}^2$ .
于是就获得了相应的正则项.

5. 小结

从这里可以看出, 正则项并非强加上去, 而是推导出来的. 这是本贴撰写的源动力.
几点未完成工作:

$\lambda_\mathbf{U}$ 和 $\lambda_\mathbf{V}$ 好像不能从数据求出, 还是只有用户自己设定;
推导的过程还不完整, 需要检查. 特别是球形高斯那里, 可以视为作业.

闵帆

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
正则项的物理意义--概率矩阵分解的角度

机器学习的优化目标中, 一般会加上参数的正则项. 1 范数, 2 范数都有其物理意义. 本贴根据对论文 Ruslan Salakhutdinov and Andriy Mnih, Probabilistic Matrix Factorization 的学习, 从概率矩阵分解的角度来进行解释.本贴涉及的数学式子不多, 但写起来稍嫌复杂, 希望读者有点耐心. 毕竟是机器学习的一个坎, 迈过去就好了.1. 数据电影评分数据集可以表示为一个矩阵 R=[rij]N×M∈[0..5]N×M\mathbf{R} =
复制链接

扫一扫

专栏目录