PCA解析

最新推荐文章于 2024-05-09 23:27:46 发布

liuwei1206

最新推荐文章于 2024-05-09 23:27:46 发布

阅读量953

点赞数 1

分类专栏：数据挖掘与机器学习文章标签： pca解析最大方差思想最小均方误差思想

本文链接：https://blog.csdn.net/jeryjeryjery/article/details/78943455

版权

数据挖掘与机器学习专栏收录该内容

19 篇文章 0 订阅

订阅专栏

1.例子引入

这里写图片描述

如图所示，我们要将两类点（红点和蓝点）分类，希望能先通过降维之后再分类（直接分肯定也能分开）。那么我们需要将二维的数据（每个点包含横坐标和纵坐标，是二维的）降维到一维直线上的点。

我们可以有多种降维的策略，通过将二维平面上的点映射到一维直线上，如上图所示就是两种映射方法：左边是投影到向量 $u_1$ 上，右边是投影到向量 $u_2$ 上。显然左边的投影能让数据分的更加散，能更好的进行分类；而右边的投影使得数据比较集中，不利于分类；所以左边的投影效果要比右边的要好。

PCA的核心思想就是对数据进行降维，并且使得降维后的样本相对之间比较分散，也就是降维后的样本的方差尽可能大；并且还要保证降维后的数据与原来样本的差异性尽可能的小，即降维后的数据的均方误差尽可能的小。但这种样本尽可能的分散也不是绝对的好，这也意味着PCA并不是万能的，仅仅对某些类型的数据有效，具体是哪一类我也忘了（sorry）。

2.PCA

主成分分析(Principal Component Analysis, PCA)，将原有众多具有一定相关性的指标重新组合成一组少量互相无关的综合指标。将原始的数据由高维度转化为低维度，目标有两个：1.使得降维后的样本的方差尽可能的大；2.使得降维后的数据的均方误差尽可能的小。

最大方差思想:使用较少的数据维度保留住较多的原数据特性

假设将 $D$ 维数据集 $\{x_n\},n=1,2,...,N$ 降为 $M$ 维, $M<D$ ，其中 $N$ 表示总样本数。

首先考虑 $M=1$ ，即降为1维，定义这个空间的投影方向为 $D$ 维向量 $u_1$ ，出于方便且不失一般性，令 $u_1^Tu_1=1$ ,即为该空间的基向量（单位长度为1）。每一个数据点 $x_n$ 在新空间中表示为标量 $u_1^Tx_n$ ，类似于二维中的坐标。样本均值在新的空间中表示为 $u_1^T\overline{x}$ ,其中 $\overline{x}=\frac{1}{N}\sum_{n=1}^Nx_n$ .

现在我们要让降维后的样本的方差尽可能的大，即：

1 N \sum n = 1 N {u T 1 x n - u T 1 x ¯} 2 = u T 1 S u 1 最 大 化

$\frac{1}{N}\sum_{n=1}^N\{u_1^Tx_n-u_1^T\overline{x}\}^2=u_1^TSu_1\;最大化$
其中

S=1N∑Nn=1(xn−x¯)(xn−x¯)T $S=\frac{1}{N}\sum_{n=1}^N(x_n-\overline{x})(x_n-\overline{x})^T$ ，是原样本的方差。

我们的目标是最大化 $u_1^TSu_1,\;\;\;s.t.\;\;u_1^Tu_1=1$ ，带约束条件的求极值问题要用朗格朗日乘子法，构造拉格朗日函数如下:

L (u 1, λ 1) = u T 1 S u 1 + λ 1 (1 - u T 1 u 1)

$L(u_1,\lambda_1)=u_1^TSu_1+\lambda_1(1-u_1^Tu_1)$
其中

λ1 $\lambda_1$ 表示拉格朗日乘子，是一个正数。对

u1 $u_1$ 求导置0得，

Su1=λ1u1 $Su_1=\lambda_1u_1$ ，也就是

u1 $u_1$ 是

S $S$ 的特征向量，进一步得到

u1Su1=λ1 $u_1Su_1=\lambda_1$ ，所以要让

u1Su1 $u_1Su_1$ 最大，也就是让

λ1 $\lambda_1$ ，而

λ1 $\lambda_1$ 是特征向量

u1 $u_1$ 对应的特征值，所以我们只要取最大的特征值对应的特征向量就能保证

u1Su1 $u_1Su_1$ 最大（这里我们讨论的是降到一维的情况）。

考虑更一般的情况(M>1)，新空间中数据方差最大的最佳投影方向由协方差矩阵S的M个特征向量 $\{u_1,...,u_M\}$ 定义，其分别对应M个最大的特征值 $\{\lambda_1,...,\lambda_M\}$ 。首先获得方差最大的1维，生成该维的补空间；继续在补空间中获得方差最大的1维，生成新的补空间；依次循环下去得到M维的空间。简而言之就是要获取 $S$ 的前 $M$ 个最大的特征值对应的特征向量 $\{u_1,...,u_M\}$ 进行降维。例如某 $D$ 维样本 $X=\{x_1,...,x_D\}$ ，用前 $M$ 个特征向量降维后的表示为 $\{u_1^TX,...,u_M^TX\}$ ，变为了 $M$ 维。

最小均方误差思想:使原数据与降维后的数据( 在原空间中的重建) 的误差最小
定义一组正交的D维基向量 $\{u_1,...,u_D\}$ ，由于基是完全的，原样本中每个数据点都可以表示为基向量的线性组合,即：

x n = \sum i = D N α n i u i 公 式 2.1

$x_n=\sum_{i=D}^N\alpha_{ni}u_i\quad\quad\quad公式2.1$
即用一组新的

D $D$ 维基向量来表示原

D $D$ 维样本

xn $x_n$ ，相当于做了一个坐标变换：

{x n 1, . . ., x n D} ⟶ {u 1, . . ., u n} {α n 1, . . ., α n D}

$\{x_{n1},...,x_{nD}\} \stackrel{\{u_1,...,u_n\}}{\longrightarrow} \{\alpha_{n1},...,\alpha_{nD}\}$

\Rightarrow a n j = x T n u j 公 式 2.2

$\Rightarrow a_{nj}=x_n^Tu_j\quad\quad\quad公式2.2$
将公式2.2带入到公式2.1中，可以得到：

x n = \sum n = 1 D (x T n u i) u i 公 式 2.3

$x_n=\sum_{n=1}^D(x_n^Tu_i)u_i\quad\quad\quad公式2.3$
假设在新生成的D维度空间中，前M维表示样本独特的信息，后（D-M）维表示样本间共享的信息，则任意一个样本进行坐标变换后，生成的样本可以用

x~n $\tilde{x}_n$ 来表示：

x ~ n = \sum i = 1 M z n i u i + \sum i = M + 1 D b i u i 公 式 2.4

$\tilde{x}_n=\sum_{i=1}^Mz_{ni}u_i+\sum_{i=M+1}^Db_iu_i\quad\quad\quad公式2.4$
因为前

M $M$ 维是表示样本独特的信息，每个样本在前

M $M$ 维向量的比重是不一样的，用

zni $z_{ni}$ 来衡量；而对于后

D−M $D-M$ 维，因为是共享信息，所以每个样本对应的参数是相同的，用

bi $b_i$ 来表示。不同的变换对样本

xn $x_n$ 的表示如下:
假设源样本 $X_n$ 的D维表示为:

(x n 1, x n 2, . . ., x n D) (表 示 1)

$(x_{n1}, x_{n2},...,x_{nD})\quad\quad\quad(表示1)$
经过向量 $u_i$ 的坐标变换表示为:

((x T n 1 u 1) u 1, (x T n 2 u 2) u 2), . . ., (x T n D u D) u D) (表 示 2)

$((x_{n1}^Tu_1)u_1, (x_{n2}^Tu_2)u_2),...,(x_{nD}^Tu_D)u_D)\quad\quad\quad(表示2)$
而再用M维变量采用独特的和共享的信息表示为:

(z n 1 u 1, . . ., z n M u M, b M u M, . . ., b D u D) (表 示 3)

$(z_{n1}u_1,...,z_{nM}u_M,b_Mu_{M},...,b_Du_{D})\quad\quad\quad(表示3)$

进行坐标变换是为了能够找到最佳的适合用来降维的方向，而分成独特信息和共享信息是为了方便只保留独特信息进行降维。所以我们的目标是要让坐标变换后的数据和分成独特信息和共享信息的数据之间信息损失最小，这样就可以解除 $u_i$ ，即那个适合降维的方向。

所以我们的目标是要让变换后的信息和原样本信息损失最少，即让

J = 1 N \sum n = 1 N | | x n - x ~ n | | 2 公 式 2.5

$J=\frac{1}{N}\sum_{n=1}^N||x_n-\tilde{x}_n||^2\quad\quad\quad公式2.5$
其中

xn $x_n$ 和

x~n $\tilde{x}_n$ 分别表示经过坐标变换后的数据和经过区分独特信息和共享信息处理后的数据。将

(表示2) $(表示2)$ 和

(表示3) $(表示3)$ 带入，可得

J = 1 N \sum n = 1 N ⎛ ⎝ \sum j = 1 M (x T n j u j - z n j) * u j + \sum k = M + 1 D (x T n k u k - b k) u k ⎞ ⎠ 2

$J=\frac{1}{N}\sum_{n=1}^N\left( \sum_{j=1}^M(x_{nj}^Tu_j-z_{nj})*u_j + \sum_{k=M+1}^D(x_{nk}^Tu_k - b_k)u_k \right)^2$
所以我们需要找到使得

J $J$ 最小的

znj $z_{nj}$ 和

bk $b_k$ ，分别对二者求导并置为0:

\partial J \partial z n j = 1 N (x n j u j - z n j) (- u j) = 0

$\frac{\partial J}{\partial z_{nj}}=\frac{1}{N}(x_{nj}u_j-z_{nj})(-u_j)=0$

⟹ z n j = x n j u j = x n u j

$\implies z_{nj}=x_{nj}u_j=x_nu_j$
最后一步中

xnjuj=xnuj $x_{nj}u_j=x_nu_j$ 是因为

uj $u_j$ 是一组正交基，只与

xn $x_n$ 中第

j $j$ 相乘不为0，所以二者是等价的。

\partial J \partial b k = 1 N (x n k u k - b k) (- u k) = 0

$\frac{\partial J}{\partial b_k}=\frac{1}{N}(x_{nk}u_k-b_k)(-u_k)=0$

⟹ 1 N \sum n = 1 N x T n k u k - 1 N \sum n = 1 N b k = 0

$\implies \frac{1}{N}\sum_{n=1}^N x_{nk}^Tu_k-\frac{1}{N}\sum_{n=1}^N b_k=0$

⟹ 1 N \sum n = 1 N x T n u k - 1 N \sum n = 1 N b k = 0

$\implies \frac{1}{N}\sum_{n=1}^N x_{n}^Tu_k-\frac{1}{N}\sum_{n=1}^N b_k=0$

⟹ b k = x ¯ T u k

$\implies b_k=\overline{x}^Tu_k$

所以最终可以得到 $z_{nj}=x_n^Tu_j,j=1,...,M$
$b_j=\overline{x}^Tu_j,j=M+1,...,D$

带入到公式2.4的 $\tilde{x}_n$ 中，然后再计算 $x_n-\tilde{x}_n$ 有：

x n - x ~ n = \sum i = M + 1 D {(x n - x ¯) T u i} u i

$x_n-\tilde{x}_n=\sum_{i=M+1}^D\{(x_n-\overline{x})^Tu_i\}u_i$
则有:

J = 1 N \sum n = 1 N \sum i = M + 1 D (x T n u i - x ¯ T u i) 2 = \sum i = M + 1 D u T i S u i

$J=\frac{1}{N}\sum_{n=1}^N\sum_{i=M+1}^D(x_n^Tu_i-\overline{x}^Tu_i)^2=\sum_{i=M+1}^Du_i^TSu_i$
少了

u2i $u_i^2$ 是因为

uTiui=1 $u_i^Tu_i=1$ 。所以我们的目标是最小化

Js.t.uTiui=1 $J\;\;\;s.t.\;\;u_i^Tu_i=1$ ，用拉格朗日乘子法得到:

L (u i, λ i) = \sum i = M + 1 D u T i S u i + \sum i = M + 1 D λ i (1 - u T i u i)

$L(u_i,\lambda_i)=\sum_{i=M+1}^Du_i^TSu_i+\sum_{i=M+1}^D\lambda_i(1-u_i^Tu_i)$
求导得:

Sui=λiui⇒uTiSui=λi $Su_i=\lambda_iu_i\Rightarrow u_i^TSu_i=\lambda_i$ ，即

ui $u_i$ 是

S $S$ 的特征向量，

λi $\lambda_i$ 为对应的特征值。则对应的失真度

J = \sum i = M + 1 D λ i

$J=\sum_{i=M+1}^D\lambda_i$
所以我们要丢弃特征值相对较少的那些基向量

ui $u_i$ 来进行降维，和前面的最大方差思想结果是一致的。

总之，要保留 S <script type="math/tex" id="MathJax-Element-7011">S</script>中特征值相对大的基向量，这样既能保证降维后的样本方差最大化；又能保证和原样本信息之间的损失最小化。

liuwei1206

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
PCA解析

1.例子引入如图所示，我们要将两类点（红点和蓝点）分类，希望能先通过降维之后再分类（直接分肯定也能分开）。那么我们需要将二维的数据（每个点包含横坐标和纵坐标，是二维的）降维到一维直线上的点。我们可以有多种降维的策略，通过将二维平面上的点映射到一维直线上，如上图所示就是两种映射方法：左边是投影到向量u1u_1上，右边是投影到向量u2u_2上。显然左边的投影能让数据分的更加散，能更
复制链接

扫一扫