PCA均方误差(MSE)最小化和方差最大化的推导

最新推荐文章于 2021-07-19 00:37:15 发布

蛋总的快乐生活

最新推荐文章于 2021-07-19 00:37:15 发布

阅读量5.9k

点赞数 6

分类专栏：模式识别文章标签：主成分分析 pca降维最小均方误差方差推导

本文链接：https://blog.csdn.net/qwe900/article/details/110231764

版权

模式识别专栏收录该内容

9 篇文章 0 订阅

订阅专栏

部分参考[https://zhuanlan.zhihu.com/p/77151308]，结合自己的一些理解和统计学习方法，补充了一些推导过程)

一、方差的定义

$\begin{aligned} Var(x)=\frac{1}{m}\sum_{i=1}^m{(x_i-\mu)^2} \\ \end{aligned}$
去除均值，方便计算

$x\leftarrow x-E[x]$

为了方便处理，我们将每个变量的均值都化为 0 ，因此方差可以直接用每个元素的平方和除以元素个数表示
$\begin{aligned} Var(x)=\frac{1}{m}\sum_{i=1}^m{(x_i)^2} \end{aligned}$

二、协方差的定义

$\begin{aligned} Cov(x,y)=\frac{1}{m}\sum_{i=1}^m{(x_i-\mu_x)(y_i-\mu_y)} \\ \end{aligned}$

由于均值为 0，所以我们的协方差公式可以表示为：
$Cov(x,y)=\frac{1}{m}\sum_{i=1}^m{x_iy_i} \\$

三、协方差矩阵

将 $x$ 和 $y$ 变量拼成一个矩阵 $X$
$X=\begin{pmatrix} x_1 & x_2 & \cdots & x_m \\ y_1 & y_2 & \cdots & y_m \end{pmatrix} \\$
那么计算协方差矩阵
$\Sigma=\frac{1}{m}XX^\mathsf{T}= \begin{pmatrix} \frac{1}{m}\sum_{i=1}^m{x_i^2} & \frac{1}{m}\sum_{i=1}^m{x_iy_i} \\ \frac{1}{m}\sum_{i=1}^m{x_iy_i} & \frac{1}{m}\sum_{i=1}^m{y_i^2} \end{pmatrix} = \begin{pmatrix} Cov(x,x) & Cov(x,y) \\ Cov(y,x) & Cov(y,y) \end{pmatrix} \\$
顺便说一下, $x^2$ 的期望也就是它与它自身的协方差，记为 $C^x$
$E(x^2)=\frac{1}{m}\sum_{i=1}^m{x_i^2}=C_{x}$

四、方差最大化

假设原来有两个变量 $x_1,x_2$ ,三个样本点分别为 $A, B, C$ ，样本分布在由 $x_1,x_2$ 轴组成的坐标系中。
对坐标系进行旋转变换，得到新的坐标轴 $y_1$ ，表示新的变量 $y_1$
样本点 $A, B, C$ 在 $y_1$ 轴上投影，得到 $y_1$ 轴的坐标值为 $A^{’},B^{’},C^{’}$
坐标轴的平方和为 $OA^{’2}+OB^{’2}+OC^{’2}$ 表示样本在变量 $y_1$ 上的方差和
主成分分析旨在选取正交变换中方差最大的变量，作为第一主成分，也就是旋转变换中坐标值平方和最大的轴
而我们知道，对于样本而言，本身的 $OA^{2}+OB^{2}+OC^{2}$ 为固有值，不变
因此可以通过勾股定理知道，方差最大 $OA^{’2}+OB^{’2}+OC^{’2}$ 最大等价于样本点到 $y_1$ 轴的距离 $AA^{’2}+BB^{’2}+CC^{’2}$ 最小

在这里插入图片描述

基于PCA的线性结合的第一个主成分为
$\begin{aligned} y_1=\sum_{k=1}^n \omega_{k1}x_k=\omega_1^Tx \end{aligned}$
那么最大化方差为
$D(y_1)=E(y_1^2)-E(y_1)^2$
而经过了去掉均值化后，期望为0
$E(y_1)=E(\sum_{k=1}^n \omega_{k1}x_k)=E(\omega_1^Tx)=0$
去均值化期望为0的具体步骤如下，假设 $x_k$ 为未去除均值的情况，均值为 $\mu$
$E(\sum_{k=1}^n \omega_{k1}x_k)=\omega_{k1}^TE(\sum_{k=1}^n x_k)\\\rightarrow\omega_{k1}^TE(\sum_{k=1}^n (x_k-\mu))=\omega_{k1}^T(E(\sum_{k=1}^nx_k)-n\mu)=0$
**例子：**再进一步理解一下期望的推导过程，看一下去均均值化的过程。纵轴为 $x_2$ ，横轴为 $x_1$

比如对于几个个样本点 $(1, 0), (2, 1), (3, 2)$ 构成的直线来说，组成的直线方程为 $x_1-x_2-1=0$ ,那么可以写成
$x_1-x_2-1=(-1,1,-1)(1,x_1,x_2)^T$
那么根据这几个样本点，计算他们的期望如下
$\begin{aligned} E(\sum_{k=1}^n \omega_{k1}x_k)&=\omega_{k1}^TE(\sum_{k=1}^n x_k) \\&=(-1,1,-1)E[\sum_{k=1}^{1}1,x_1,x_2]^T \\&=(-1,1,-1)E[(1,1,0)^T+(1,2,1)^T+(1,3,2)^T] \\&=(-1,1,-1)E[(3,6,3)^T] \\&=0 \end{aligned}$
因为这些样本点在直线上，期望肯定是0，这里看的是右面的部分，变量的期望，去均值化的时候目的是让 $E$ 中去均值后的 $x$ 为 $0$
- 那么对于 $x_1$ 和 $x_2$ ，去掉他们的均值 $2$ 和 $1$ 后计算：
$\begin{aligned} E(\sum_{k=1}^n \omega_{k1}x_k)&\rightarrow\omega_{k1}^TE(\sum_{k=1}^n (x_k-\mu)) \\&=(-1,1,-1)E[\sum_{k=1}^{1}1-1,x_1-2,x_2-1]^T \\&=(-1,1,-1)E[(0,-1,-1)^T+(0,0,0)^T+(0,1,1)^T] \\&=(-1,1,-1)E[(0,0,0)^T] \\&=0 \end{aligned}$

新的方程为 $1)*(x_1-2)+(-1)*(x_2-1)=0$ ,如果令 $x_3=x_1-2，x_4=x_2-1$ ，通过去均值那么就得到了让直线经过了原点，去除了截距项,即 $x_3-x_4=0$

那么回到(9)式，继续计算这个方差，有两种理解办法，过程是一样的

第一种根据方差与期望的关系，通过(10)(11)算式推得到 $E(y_1)=0$ 从而最大化方差 $D(y_1)$ 等价于最大化 $E(y_1^2)$
第二种根据(2)的算式，期望为0，得到以下形式，结果是相同的

$\begin{aligned} J_1^{PAC}(w_1)=D(y_1)&=\frac{1}{m}\sum_{i=1}^{m}(x_1^Tw)^2 \\& =\frac{1}{m}\sum_{i=1}^{m}(x_1^Tw)^T(x_1^Tw) \\ &=\frac{1}{m}\sum_{i=1}^{m}w^Tx_1x_1^Tw \\& = w^T(\frac{1}{m}\sum_{i=1}^{m}x_1x_1^T)w\\& =w^T E(x^2)w\\&=w^T\Sigma w\\&=w^TC_x w\end{aligned} \\$
最后得到的最优化问题是
$max:w^TC_x w\\ s.t:w^Tw=1$

五、均方误差最小化(MSE)

在方差最大化的图中，可以知道Variance+MSE=定值，因此二者是等价的，换一种思路通过均方误差最小化进行推导。

向量的投影

在这里插入图片描述

以该图的B点为例，设B点的坐标为 $x_1,x_2)$ ,其所代表的向量为 $\overrightarrow{OB}=\overrightarrow{x}=(x_1,x_2)$ ,由于 $y_1=\sum_{k=1}^n \omega_{k1}x_k=\omega_1^Tx$ ,那么可以同样表示出直线的单位方向向量为 $\overrightarrow{w}=(w_1,w_2)$ ,（注：由于该直线过原点就没有写截距项1）那么先算 $\overrightarrow{x}$ 向量和 $\overrightarrow{w}$ 向量的夹角 $\theta$ .

由于 $w^Tw=1$ ,即 $|\overrightarrow{w}|=1$ ,可以继续化简为：
$\begin{aligned} cos\theta&=\frac {\overrightarrow{x}\overrightarrow{w}}{|\overrightarrow{x}||\overrightarrow{w}|}\\&=\frac {\overrightarrow{x}\overrightarrow{w}}{|\overrightarrow{x}|} \end{aligned}$

那么 $O B^{'}$ 的长度为
$OB^{’}=OB*cos\theta=|\overrightarrow{x}|*\frac {\overrightarrow{x}\overrightarrow{w}}{|\overrightarrow{x}|} =\overrightarrow{x}\overrightarrow{w}$
那么 $O B^{'}$ 的方向为
$\frac{\overrightarrow{w}}{|\overrightarrow{w}|}=\overrightarrow{w}$
因此 $O B^{'}$ 的向量为
$\overrightarrow{OB^{’}}=\overrightarrow{x}\overrightarrow{w}*\overrightarrow{w}$
在这个部分，我们的目标是最小化均方误差，也就是 $min(AA^{’2}+BB^{’2}+CC^{’2})$

下一步就是表示出 $\overrightarrow{B^{’}B}$ ,由向量的知识，（方向换一下没事，因为还要平方）可以得到
$\begin{aligned} \overrightarrow{B^{’}B}&=\overrightarrow{OB}-\overrightarrow{OB'}\\&=\overrightarrow{x}-\overrightarrow{x}\overrightarrow{w}*\overrightarrow{w}\\&=x-(w^Tx)w \end{aligned}$
因此目标为
$\begin{aligned} J_{MSE}^{PCA}&=E(\vert\vert x-\sum_{i=1}^{m}(w_i^Tx)w_i \vert\vert^2) \\&=E(\vert\vert x\vert\vert^2)-2E(x^T\sum_{i=1}^{m}(w_i^Tx)w_i)+E(\sum_{i=1}^{m}((w_i^Tx)w_i)^2) \\&=E(\vert\vert x\vert\vert^2)-2w^TE(\sum_{i=1}^{m}(x^Tx)^2)w+E((\sum_{i=1}^{m}((w_i^Tx)w_i)^T*(w_i^Tx)w_i) \\&=E(\vert\vert x\vert\vert^2)-2w^TE(\sum_{i=1}^{m}(x^Tx)^2)w+w^TE(\sum_{i=1}^{m}(x^Tx)^2)w \\&=E(\vert\vert x\vert\vert^2)-w^TE(\sum_{i=1}^{m}(x^Tx)^2)w \\&=trace(C_x)-w^TC_x w \end{aligned}$
由于协方差 $C_x$ 是定值，因此 $w^TC_x w$ 越大，均方误差越小。

即得到的最优化问题为：
$max:w^TC_x w\\ s.t:w^Tw=1$

六、求解最优化问题

根据拉格朗日方程：
$L(w,\lambda)=w^TC_x w-\lambda(w^Tw-1)$

那么对w求导可以得到
$2C_xw-2\lambda w=0$
这意味着协方差的特征值是 $\lambda$
因此 $C_xw=\lambda w$ 代入后有
$w^TC_x w=w^T(C_x w)=w^T\lambda w=\lambda w^Tw=\lambda$
即寻找最大的特征值 $\lambda$ 即为所求。

那么从大到小排列，便得到了各个主成分。

高维小样本数据集的PCA方法预降维度方法及相关公式

例如: $x_i∈R^n, i=1,2,…,k.$
这意味着在n很大的情况下， $C_x∈R^{(n×n)}$ ，协方差矩阵太大并且不可逆很难分解
因此要采用预处理降维度的办法

$\begin{aligned} w_1=x_1 w_1=w_1/‖w_1 ‖\\ w_2=x_2−(w_1^T x_2)w_1,w_2=w_2/‖w_2 ‖\\ ……\\ w_k=x_k−∑_{(j=1)}^{(k−1)}(w_j^T x_k)w_j , w_k=w_k/‖w_k ‖ \end{aligned}$