数据降维

最新推荐文章于 2024-09-06 21:50:51 发布

爱吃香菜和葱

最新推荐文章于 2024-09-06 21:50:51 发布

阅读量301

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/qq_41648804/article/details/102940937

版权

本文探讨了数据降维的目的，主要聚焦于SVD和CUR分解。SVD通过用户和电影评分矩阵解释了SVD原理，强调了在降维过程中保留重要特征的重要性。CUR分解提供了一种替代方法，特别是对于稀疏矩阵。

摘要由CSDN通过智能技术生成

数据降维的目的：

发现隐含特征
移除噪声
方便解释和可视化

SVD分解

SVD原理

SVD分解的一般形式：
$\mathbf{A}_{[m \times n]}=\mathbf{U}_{[m \times r]} \Sigma_{[r \times r]}\left(\mathbf{V}_{[n \times r]}\right)^{\top}$
其中：以用户和电影之间的评分来讨论这一问题，方便理解。
$A$ ：输入矩阵，例如：用户和电影之间的评分矩阵
$U$ ：列正交矩阵（ $m * r$ ），且每一列均为单位向量，可以理解为用户和电影种类（或者说Latent factors）之间的关联矩阵
$\Sigma$ ：对角阵（ $r * r$ ），根据矩阵 $A$ 提供的信息多少，显示每个种类（或者说Latent factors）的strength，且对角阵上的值按降序排列。
$V^\top$ ：行正交矩阵（ $n * r$ ），且每一行为单位向量，表示每部电影和电影种类（或者说Latent factors）之间的关联矩阵。
SVD_ex
结合上图，简单理解下SVD分解的含义。矩阵 $U$ 是user-to-concept矩阵，比较每行中三个值的大小，不难发现，第一列中前四行的值较大，刚好对应user-to-movie矩阵中，前四个用户均喜欢观看科幻类电影；矩阵 $\Sigma$ 是每个种类的电影所占的比例，由于在user-to-movie矩阵中，用户对科幻类电影的打分项明显高于浪漫类，所以在矩阵 $\Sigma$ 中科幻类电影的比重较大；矩阵 $V^\top$ 是电影种类和电影之间的关联程度，不难发现第一行前三个的值第一行后两个的值，刚好对应上前三部电影是科幻类。
在上面的例子中，我们不难发现，第五个和第七个用户虽然大部分的观影是浪漫类，但也存在科幻类的观影。正是由于此原因造成分解时电影种类有三类，但是实际上可以将 $\Sigma$ 对角阵上较小的值置为0，接下来将证明这一点。
假设矩阵 $M$ 的 $S V D$ 分解为 $M = P Q R$ ，则：
$||M||^2=\sum_{i}\sum_{j}\left(m_{ij}\right)^2=\sum_{i}\sum_{j}\left(\sum_{k}\sum_{m}p_{ik}q_{km}r_{mj}{}\right)^2$