PCA主成分分析及其数学证明

最新推荐文章于 2024-07-25 08:20:58 发布

qq_43340256

最新推荐文章于 2024-07-25 08:20:58 发布

阅读量712

点赞数 1

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_43340256/article/details/131836324

版权

PCA主成分分析是一种数据降维的方法，它的目的是找到一组新的正交基，使得数据在这组基上的投影能够最大化方差，从而保留数据的主要信息。PCA主成分分析的公式有以下几个：

数据矩阵 $X$ ，每一行是一个样本，每一列是一个特征。
均值向量 $\bar{x}$ ，每个元素是对应特征的均值，即 $\bar{x}_i=\frac{1}{n}\sum_{j=1}^n x_{ji}$ 。
去均值化后的数据矩阵 $Z$ ，每个元素是对应特征减去均值，即 $z_{ij}=x_{ij}-\bar{x}_i$ 。
协方差矩阵 $C$ ，每个元素是对应特征之间的协方差，即 $c_{ij}=\frac{1}{n-1}\sum_{k=1}^n (z_{ki}z_{kj})$ 。协方差矩阵也可以写成 $C=\frac{1}{n-1}Z^TZ$ 。
特征值 $\lambda_i$ 和特征向量 $v_i$ ，满足 $Cv_i=\lambda_iv_i$ 。特征值表示对应特征向量方向上的方差大小，特征向量表示新的正交基方向。
主成分 $t_i$ ，是数据在特征向量上的投影，即 $t_i=Zv_i$ 。主成分也可以看作是新的特征空间中的坐标。
降维后的数据矩阵 $Y$ ，是将数据投影到前 $k$ 个最大特征值对应的特征向量上，即 $Y=ZV_k$ ，其中 $V_k$ 是由前 $k$ 个特征向量组成的矩阵。

对于公式的解析，可以参考以下几个方面：

PCA主成分分析是一种线性变换，它将原始数据从 $n$ 维空间变换到 $k$ 维空间，其中 $k < n$ 。这种变换可以看作是一种旋转和压缩的过程，旋转是为了让新的坐标轴与数据的主要变化方向一致，压缩是为了去除那些方差较小或者不相关的维度。
PCA主成分分析的目标是最大化数据在新坐标轴上的方差，这样可以保留数据中最重要的信息。这个目标可以通过求解协方差矩阵的特征值和特征向量来实现。协方差矩阵反映了数据各个特征之间的相关性，其对角线上的元素是各个特征自身的方差。协方差矩阵的特征值表示了各个特征向量方向上的方差大小，特征向量表示了新坐标轴的方向。选择最大的 $k$ 个特征值对应的特征向量作为新坐标轴，就可以实现数据降维。
PCA主成分分析有两种常用的实现方法：基于特征值分解协方差矩阵和基于奇异值分解（SVD）协方差矩阵。基于特征值分解协方差矩阵的方法需要先计算协方差矩阵，然后对其进行特征值分解，得到特征值和特征向量。基于奇异值分解协方差矩阵的方法不需要显式地计算协方差矩阵，而是直接对数据矩阵进行奇异值分解，得到奇异值和奇异向量。两种方法的结果是一致的，但是基于奇异值分解协方差矩阵的方法更加稳定和高效。

好的，我可以给你一个具体的例子来帮助你理解主成分分析的数学推导³ 。

假设我们有以下四个样本，每个样本有两个特征 $x_1$ 和 $x_2$ ：

样本编号	$x_1$	$x_2$
1	1	2
2	3	3
3	4	5
4	6	7

我们可以将这些样本用矩阵表示为：

$X=\begin{bmatrix} 1 & 2 \\ 3 & 3 \\ 4 & 5 \\ 6 & 7 \end{bmatrix}$

我们的目标是将这些样本从二维降维到一维，即找到一个新的坐标轴 $u_1$ ，使得样本在这个坐标轴上的投影能够最大化方差，从而保留数据的主要信息。我们可以用以下公式表示这个投影：

$y_i=u_1^Tx_i$

其中 $y_i$ 是第 $i$ 个样本的投影值， $u_1$ 是一个单位向量， $x_i$ 是第 $i$ 个样本的原始值。

我们可以看到，不同的 $u_1$ 会导致不同的投影方差，我们想要找到一个最优的 $u_1$ ，使得投影方差最大。我们可以用以下公式表示投影方差：

$\sigma^2=\frac{1}{n}\sum_{i=1}^n(y_i-\bar{y})^2$

其中 $\bar{y}$ 是投影值的均值，即 $\bar{y}=\frac{1}{n}\sum_{i=1}^ny_i$ 。我们可以对这个公式进行一些变换，得到：

$\begin{aligned} \sigma^2&=\frac{1}{n}\sum_{i=1}^n(y_i-\bar{y})^2\\ &=\frac{1}{n}\sum_{i=1}^n(y_i-\frac{1}{n}\sum_{i=1}^ny_i)^2\\ &=\frac{1}{n}\sum_{i=1}^n(y_i-u_1^T\bar{x})^2\\ &=\frac{1}{n}\sum_{i=1}^n(u_1^Tx_i-u_1^T\bar{x})^2\\ &=\frac{1}{n}\sum_{i=1}^n(u_1^T(x_i-\bar{x}))^2\\ &=\frac{1}{n}\sum_{i=1}^nu_1^T(x_i-\bar{x})(x_i-\bar{x})^Tu_1\\ &=u_1^T(\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})(x_i-\bar{x})^T)u_1\\ &=u_1^TCu_1 \end{aligned}$

其中 $\bar{x}$ 是原始数据的均值向量，即 $\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i$ ， $C$ 是原始数据的协方差矩阵，即 $C=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})(x_i-\bar{x})^T$ 。我们可以对原始数据进行中心化处理，即减去均值向量，得到：

$Z=X-\begin{bmatrix} \bar{x}\\ \bar{x}\\ \vdots\\ \bar{x}\\ \end{bmatrix}= \begin{bmatrix} x_1-\bar{x}\\ x_2-\bar{x}\\ \vdots\\ x_n-\bar{x} \end{bmatrix}$

这样，协方差矩阵可以简化为 $C=\frac{1}{n}Z^TZ$ ，投影方差可以简化为 $\sigma^2=u_1^T(\frac{1}{n}Z^TZ)u_1$ 。我们的优化目标是：

$\max_{u_1}u_1^T(\frac{1}{n}Z^TZ)u_1$

同时，我们还有一个约束条件，就是 $u_1$ 必须是一个单位向量，即 $u_1^Tu_1=1$ 。这样，我们可以用拉格朗日乘数法来构造一个拉格朗日函数：

$L(u_1,\lambda)=u_1^T(\frac{1}{n}Z^TZ)u_1+\lambda(1-u_1^Tu_1)$

对这个函数求偏导，得到：

$\frac{\partial L}{\partial u_1}=2(\frac{1}{n}Z^TZ)u_1-2\lambda u_1$

令偏导为零，得到：

$(\frac{1}{n}Z^TZ)u_1=\lambda u_1$

观察上式可以发现， $\lambda$ 是 $(\frac{1}{n}Z^TZ)$ 的特征值， $u_1$ 是对应的特征向量。我们只要求解 $(\frac{1}{n}Z^TZ)$ 的特征值和特征向量，然后选择最大的特征值对应的特征向量作为 $u_1$ ，就可以实现数据降维。

回到我们的例子中，我们先对原始数据进行中心化处理，得到：

$Z=\begin{bmatrix} -3 & -3 \\ -1 & -2 \\ 0 & 0 \\ 2 & 2 \end{bmatrix}$

然后计算协方差矩阵：

$C=\frac{1}{4}Z^TZ=\begin{bmatrix} 5 & 5 \\ 5 & 5 \end{bmatrix}$

然后求解协方差矩阵的特征值和特征向量：

$\begin{aligned} |C-\lambda I|&=0\\ \begin{vmatrix} 5-\lambda & 5 \\ 5 & 5-\lambda \end{vmatrix}&=0\\ (5-\lambda)^2-25&=0\\ \lambda^2-10\lambda&=0\\ \lambda(\lambda-10)&=0\\ \lambda&=0,10\\ \end{aligned}$

当 $\lambda=10$ 时，代入协方差矩阵得到：

$(C-10I)u_1=0\\ \begin{bmatrix} -5 & 5 \\ 5 & -5 \end{bmatrix}u_1=0\\ u_1=\begin{bmatrix} a \\ a \end{bmatrix}$

由于 $u_1$ 是单位向量，所以 $a=\frac{1}{\sqrt{2}}$ 或 $a=-\frac{1}{\sqrt{2}}$ 。我们可以任意选择一个作为 $u_1$ ，比如：

$u_1=\begin{bmatrix} \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} \end{bmatrix}$

这样，我们就得到了最优的坐标轴 $u_1$ ，它能够最大化数据的投影方差。我们可以用这个坐标轴来计算每个样本的投影值：

$y_i=u_1^Tx_i\\ y=\begin{bmatrix} y_1 \\ y_2 \\ y_3 \\ y_4 \end{bmatrix}=Xu_1=\begin{bmatrix} 3/\sqrt{2} \\ 6/\sqrt{2} \\ 9/\sqrt{2} \\ 13/\sqrt{2} \end{bmatrix}$

qq_43340256

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
PCA主成分分析及其数学证明

PCA主成分分析是一种数据降维的方法，它的目的是找到一组新的正交基，使得数据在这组基上的投影能够最大化方差，从而保留数据的主要信息。，使得样本在这个坐标轴上的投影能够最大化方差，从而保留数据的主要信息。，它能够最大化数据的投影方差。好的，我可以给你一个具体的例子来帮助你理解主成分分析的数学推导³。我们的目标是将这些样本从二维降维到一维，即找到一个新的坐标轴。的特征值和特征向量，然后选择最大的特征值对应的特征向量作为。会导致不同的投影方差，我们想要找到一个最优的。这样，我们就得到了最优的坐标轴。
复制链接

扫一扫