PCA主成分分析的原理解析

最新推荐文章于 2023-06-20 15:28:44 发布

阿笨爹

最新推荐文章于 2023-06-20 15:28:44 发布

阅读量1.5k

点赞数 1

分类专栏：数学算法文章标签：机器学习模式识别数据处理

本文链接：https://blog.csdn.net/u013916933/article/details/49365673

版权

数学算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

先说点废话

$\ \ \ \ \ \$ 研究生生活转眼就要结束了，不知不觉也在CSDN上浪迹了多年，从本科做毕业设计到研究生做课题，CSDN都给了我不少帮助，如今得空，倒不如留下点什么，权当留念。博主的研究课题涉及到的领域主要是信号处理、模式识别和机器学习，想写的东西也大概与之相关，有关于旧知识的复习，也有新技术的学习笔记。水平有限，毕竟是第一次，大家拍砖的时候，请温柔些。

PCA原理解析

$\ \ \ \ \ \$ 通常在原始数据中各个元素之间并不能保证完全相互独立，而这些相互关联的元素则会产生大量的冗余信息，甚至造成维度灾难，而主成分分析（principle component analysis, PCA）则是解决这一问题的一种经典算法。其目的是希望用较少的元素去解释原数据最独特的特征，并保证各个变量间的独立性。PCA选出的变量往往要远小于原数据的维度，因此PAC实际上是一种经典的数据降维和特征选择算法。

1. 基本思想

$\ \ \ \ \ \$ 假设用 $x_{1},x_{2},...,x_{p}$ 表示p门课程的成绩， $c_{1},c_{2},...,c_{p}$ 表示各门课程的权重，这几门课程的加权和可以表示为：

s = c 1 x 1 + c 2 x 2 + \cdot \cdot \cdot + c p x p .

$s=c_{1}x_{1}+ c_{2}x_{2}+\cdot \cdot \cdot+c_{p}x_{p}.$ 我们希望

s $s$ 能够更好的区分学生的成绩，即使

n $n$ 个学生各门成绩的加权和

s1,s2,⋅⋅⋅,sn $s_{1},s_{2},\cdot\cdot\cdot,s_{n}$ 尽可能的分散，即使

V a r (c 1 x 1 + c 2 x 2 + \cdot \cdot \cdot + c p x p)

$Var\left (c_{1}x_{1}+ c_{2}x_{2}+\cdot \cdot \cdot+c_{p}x_{p} \right )$ 的值达到最大。由于方差反映了数据的差异程度，则使

s $s$ 的方差最大化意味着我们抓住了各样本的最大差异，当然各门课程的权重值必须有一定的限制，通常规定

c 21 + c 22 + \cdot \cdot \cdot + c 2 p = 1.

$c_{1}^{2}+c_{2}^{2}+\cdot\cdot\cdot+c_{p}^{2}=1.$

$\ \ \ \ \ \$ 由于一个主成分不足以表示原数据中

p $p$ 个元素所包含的全部信息，因此需要找出第二个乃至更多的主成分，但是各个主成分之间应互相独立，一个主成分不应包含其他主成分中的信息，几何上表现为任意两个主成分正交，即，设

Zi $Z_{i}$ 表示第

i $i$ 个主成分，则有

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ Z 1 = c 1, 1 x 1 + c 1, 2 x 2 + \cdot \cdot \cdot + c 1, p x p Z 2 = c 2, 1 x 1 + c 2, 2 x 2 + \cdot \cdot \cdot + c 2, p x p \cdot \cdot \cdot \cdot \cdot \cdot Z p = c p, 1 x 1 + c p, 2 x 2 + \cdot \cdot \cdot + c p, p x p

$\left\{\begin{matrix} Z_{1}=c_{1,1}x_{1}+ c_{1,2}x_{2}+\cdot \cdot \cdot+c_{1,p}x_{p}\\ Z_{2}=c_{2,1}x_{1}+ c_{2,2}x_{2}+\cdot \cdot \cdot+c_{2,p}x_{p}\\ \cdot \cdot \cdot \cdot\cdot\cdot \\ Z_{p}=c_{p,1}x_{1}+ c_{p,2}x_{2}+\cdot \cdot \cdot+c_{p,p}x_{p} \end{matrix}\right.$ 其中对任意的

i,j Var(Zi) $i,j\ Var\left (Z_{i}\right )$ 能够达到最大，且有

(c i, 1, c i, 2, . . ., c i, p) ⊥ (c j, 1, c j, 2, . . ., c j, p) c 2 i, 1 + c 2 i, 2 + \cdot \cdot \cdot + c 2 i, p = 1

$\left (c_{i,1},c_{i,2},...,c_{i,p}\right )\perp \left (c_{j,1},c_{j,2},...,c_{j,p}\right )\\c_{i,1}^{2}+ c_{i,2}^{2}+\cdot \cdot \cdot+c_{i,p}^{2}=1$ 这样既可得到 p个主成分，而这也就是PCA的基本思想。

2. 算法细节

$\ \ \ \ \ \$ 假设我们有 $n$ 组训练数据，写成矩阵形式即为

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ x 11 x 21 \cdot \cdot \cdot x n 1 x 12 x 22 \cdot \cdot \cdot x n 2 \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot x 1 p x 2 p \cdot \cdot \cdot x n p ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$X=\begin{bmatrix} x_{11} & x_{12}& \cdot \cdot \cdot & x_{1p}\\ x_{21} & x_{22}& \cdot \cdot \cdot & x_{2p}\\ \cdot \cdot\cdot &\cdot \cdot\cdot &\cdot \cdot \cdot &\cdot \cdot \cdot \\ x_{n1} & x_{n2}& \cdot \cdot \cdot & x_{np} \end{bmatrix}$ 其中每一行为一个样本，每一列表示样本的某一个属性，由于不同属性之间可能采用不同的量纲，因此我们首先需要对数据集进行按列归一化。如数学考试采用百分制，而美术考试采用5分制，则那么我们可能得到如下所示的训练集

X = ⎡ ⎣ ⎢ 958360432 ⎤ ⎦ ⎥

$X=\begin{bmatrix}95&4\\83&3\\60&2\end{bmatrix}$ ，由于量纲不同导致数学成绩与美术成绩相差较大，通过按列归一化可以解决这一问题

x i j = x i j - x j ¯ ¯ ¯ s j

$x_{ij}=\frac {x_{ij}-\overline{\mathbf{x}_{j}}}{s_{j}}$ 其中

xj¯¯¯ $\overline{\mathbf{x}_{j}}$ 、

sj $s_{j}$ 分别为第

j $j$ 列上数据的均值和标准差。

$\ \ \ \ \ \$ 对于样本各元素的任意一个线性组合

z = c 1 x 1 + c 2 x 2 + \cdot \cdot \cdot + c p x p, \sum j = 1 p c 2 j = 1.

$z=c_{1}x_{1}+ c_{2}x_{2}+\cdot \cdot \cdot+c_{p}x_{p},\ \ \sum_{j=1}^{p}c_{j}^{2}=1.$ 将

z $z$ 视为一个新变量，由于

X $X$ 已经归一化，那么

z $z$ 的方差可表示为

M * 2 = 1 n \sum i = 1 n (z i - z ¯) 2 = 1 n \sum i = 1 n z 2 i = 1 n (X l) T (X l)

$M_{2}^{*}=\frac {1}{n}\sum_{i=1}^{n}\left (z_{i}-\overline{\mathbf{z}}\right )^{2}=\frac {1}{n}\sum_{i=1}^{n}z_{i}^{2}=\frac {1}{n}\left (\mathbf{Xl}\right )^{T}\left(\mathbf{Xl}\right)$ 其中