葫芦书笔记----降维

最新推荐文章于 2024-10-15 17:31:08 发布

沃·夏澈德

最新推荐文章于 2024-10-15 17:31:08 发布

阅读量143

点赞数 1

分类专栏：葫芦书笔记文章标签：降维 PCA LDA 机器学习

本文链接：https://blog.csdn.net/aaalswaaa1/article/details/108943609

版权

葫芦书笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

降维

降维可以提升特征表达能力，降低训练复杂度。

PCA最大方差理论

如何定义主成分？从这种定义出发，如何设计目标函数使得降维达到提取主成分的目的？针对这个目标函数，如何对PCA问题进行求解？

速记：通过低维向量表达原始数据，那么低维向量所包含的信息就是主成分。PCA的目标是最大化投影方差。

详细：对于给定的一组数据点 ${v_1,v_2,...,v_n\}$ ，其中所有向量均为列向量，中心化后的表示为 $\{x_1,x_2,...,x_n\}=\{v_1-\mu,v_2-\mu-\mu,...,v_n-\mu\}$ ，其中 $\mu=\frac{1}{n}\sum_{i=1}^nv_i$ 。我们知道，向量内积在几何上表示为第一个向量投影到第二个向量上的长度，因此向量 $x_i$ 在 $\omega$ （单位方向向量）上的投影坐标可以表示为 $(x_i,\omega)=x_i^T\omega$ 。所以目标是找到一个投影方向 $\omega$ ，使得 $x_1,x_2,...,x_n$ 在 $\omega$ 上的投影方差尽可能大。易知，投影之后均值为0（因为 $\mu^`=\frac{1}{n}\sum_{i=1}^nx_i^T\omega=(\frac{1}{n}\sum_{i=1}^nx_i^T)\omega=0$ ，这也是进行中心化的意义），因此投影后的方差可以表示为
$D(x)=\frac{1}{n}\sum_{i=1}^n(x_i^T\omega)^2 =\frac{1}{n}\sum_{i=1}^n(x_i^T\omega)^T(x_i^T\omega) =\frac{1}{n}\sum_{i=1}^n\omega^Tx_ix_i^T\omega =\omega^T(\frac{1}{n}\sum_{i=1}^nx_ix_i^T)\omega$
仔细一看， $\omega^T(\frac{1}{n}\sum_{i=1}^nx_ix_i^T)\omega$ 其实就是样本协方差矩阵，将其写为 $\sum$ 。另外由于 $\omega$ 是单位方向向量，即有 $\omega^T\omega=1$ 。因此要求解一个最大化问题，可表示为
$\begin{cases} max\{\omega^T\sum\omega\}\\ s.t. \omega^T\omega=1 \end{cases}$
引入拉格朗日乘子，并对 $\omega$ 求导令其为0，便可以推出 $\sum\omega=\lambda\omega$ ，此时
$D(x)=\omega^T\sum\omega=\lambda\omega^T\omega=\lambda$
$x$ 投影后的方差就是协方差矩阵的特征值。我们要找的最大方差也就是协方差矩阵最大的特征值，最佳投影方向就是最大特征所对应的特征向量。次佳投影方向位于最佳投影方向的正交空间中，是第二大特征值对于的特征向量，以此类推。至此，得到以下PCA的求解方法。

（1）对样本数据进行中心化处理。

（2）求样本协方差矩阵

（3）对协方差矩阵进行特征值分解，将特征值从大到小排列。

（4）取特征值前d大对应的特征向量 $\omega_1,\omega_2,...,\omega_d$ ，通过以下映射将n维样本映射到d维。
$x_i^`=\begin{bmatrix} \omega_1^Tx_i \\ \omega_2^Tx_i \\ \vdots \\ \omega_d^Tx_i \end{bmatrix}$
新的 $x_i^`$ 的第d维就是 $x_i$ 在第d个主成分 $\omega_d$ 方向上的投影。