矩阵压缩降维

最新推荐文章于 2021-08-04 20:34:45 发布

永远鲜红の幼月

最新推荐文章于 2021-08-04 20:34:45 发布

阅读量1.3k

点赞数

分类专栏：机器学习入门科普文章标签：机器学习算法

本文链接：https://blog.csdn.net/qq_40482358/article/details/118518349

版权

机器学习入门科普专栏收录该内容

11 篇文章 0 订阅

订阅专栏

PCA（主成分分析）是一种有效的数据压缩方法，通过降维来减少存储和计算需求。它通过寻找最佳的低维超平面来近似高维数据，保持样本间的距离和分散性。降维过程包括去中心化、计算协方差矩阵、特征值分解和选取高方差特征向量。这种方法用于最大化保留信息并降低数据冗余。

摘要由CSDN通过智能技术生成

数据压缩

在存储数据和使用数据的时候，过多的数据会造成空间上的占用和时间上的消耗。

如果我们能够将数据压缩的更少一点，即可使用更少的空间和时间进行训练模型。

例1：从2维到1维。

当2维的点均匀的分布在某一条直线附近，即可使用该直线所在的1维值来表示之前的2维的值。

在这里插入图片描述

当二维变量能够通过一条线表示出来的时候，我们就可以用一个变量来表示该二维变量了,即：
$x^{(i)}\in\mathbb{R}^2\qquad->\qquad z^{(i)}\in\mathbb{R}\\ x^{(i)}表示第i个样本.\\ z^{(i)}表示第i个样本映射出来的1维结果。$
同理，当3维的点均匀分布在某一个平面上。即可使用2维的数据表示3维的数据。

PCA降维

PCA(Principal Component Analysis) 是一种将高维数据降维，提取数据的主要特征分量的方法。叫做主成分分析法。

降维思路

如何使用低纬度超平面的值表达高纬度的值？

直观上看，使用超平面表达高纬度，需要满足两个点

最近重构性。样本的点到这个超平面的距离足够近(足够近，才好拟合)。
最大可分性。样本点在这个超平面上的投影尽可能分开(降维后，映射到超平面上，减少重合点，确保保留信息足够多）。

这里的超平面就是直线的高维推广。相当于三维的超平面是直线，4维的超平面是个面或者线，5维的是4维或者3维等等。

降维步骤

$\begin{aligned} 输入：& 样本集D=\{x_1,x_2,..,x_n\};\\ & 低维空间维度d'\\ \\ 过程:\\ & 1.对所有样本进行去中心化\sum x_i=0\\ & 2.计算样本的协方差矩阵XX^T\\ & 3.对协方差矩阵XX^T特征值分解\\ & 4.取最大的d'个特征值所对特征向量W。\\ 输出：\\ & 投影矩阵W。该投影矩阵W即主成分分析的结果 \end{aligned}$

原理分析。

为了能使得降维后，映射到超平面上的点足够分散，我们尽量使映射后的方差较大。

Step1：去中心化

去中心化。方便方差计算.

$去中心化后，均值\mu=0，方差\sum(x-\mu)^2=\sum x^2.$

Step2：计算协方差矩阵

$XX^T=\begin{bmatrix} x_1^2 &x_1x_2 &... &x_1x_n\\ x_2x_1 &x_2^2 &... &x_2x_n\\ ... &... &... &...\\ x_nx_1 &x_nx_2 &... &x_n^2 \end{bmatrix}= \begin{bmatrix} D(x_1) &Cov(x_1,x_2) &... &Cov(x_1,x_n)\\ Cov(x_2,x_1) &D(x_2) &... &Cov(x_2,x_n)\\ ... &... &... &...\\ Cov(x_n,x_1) &Cov(x_n,x_2) &... &D(x_n) \end{bmatrix}$