[机器学习]降维之主成分分析

最新推荐文章于 2024-08-04 09:24:07 发布

3points

最新推荐文章于 2024-08-04 09:24:07 发布

阅读量861

点赞数

分类专栏：机器学习文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/m0_45164809/article/details/121374934

版权

机器学习专栏收录该内容

11 篇文章 1 订阅

订阅专栏

降维之主成分分析

问题引入
主成分分析
核主成分分析
Reference

问题引入

在高维情形下常出现样本稀疏、距离计算困难等问题，这是所有机器学习方法共同面临的问题，称为维数灾难。

为了缓解维数灾难一个重要途径就是“降维”。通过某种数学变换将原始高维属性空间转变为一个低维子空间，在该子空间中样本密度大幅提高，距离计算也变得更加容易。

主成分分析

主成分分析(Principal Component Analysis)PCA是最常用的一种降维方法。若存在一个超平面能够对所有样本进行恰当表达，它应该满足这样的性质：

最近重构性：样本点到该超平面的距离足够近
最大可分性：样本点在该超平面的投影尽可能能分开

1.最近重构性

假定数据样本进行了中心化，即 $\sum_{i}x_i=0$ ，投影变换后得到的新坐标系为 $\left \{ w_1,w_2,\cdots,w_d \right \}$ ， $w_i$ 为标准正交基向量。

若丢弃新坐标系中的部分坐标，即将维度降低到 $d^{'} < d$ ，则样本点 $x_i$ 在低维坐标系中的投影是 $z_i=(z_{i1};z_{i2};\cdots;z_{id'})$ ， $z_{ij}=w_j^Tx_i$ 是 $x_i$ 在低维坐标系下第 $j$ 维的坐标。若基于 $z_i$ 重构 $x_i$ ，则 $\hat{x_i}=\sum_{j=1}^{d'}z_{ij}w_j$ 。

于是原样本点 $x_i$ 与基于投影重构的样本点 $\hat{x_i}$ 之间的距离为：
$\begin{array}{c} \sum_{i=1}^{m}\left \| \sum_{j=1}^{d'}z_{ij}w_{j}-x_i\right \|^2_2=\sum_{i=1}^{m}z_i^Tz_i -2\sum_{i=1}^{m}x_i^TW^Tx_i+const \\ \\ \propto -tr(W^T(\sum_{i=1}^{m}x_ix_i^T )W) \\ \end{array}$

根据最近重构性，上式应该被最小化，则：
$\begin{array}{l} {min}_W\quad -tr(W^TXX^TW) \\ s.t.\quad W^TW=I \end{array}$

2.最大可分性

样本点 $x_i$ 在新空间的超平面上投影为 $W^Tx_i$ ，若所有样本点投影尽可能分开，应使投影后样本点的方差最大化。

投影后样本点方差为 $\sum_{i}W^Tx_ix_i^TW$ ，则优化目标为：
$\begin{array}{l} {max}_W\quad tr(W^TXX^TW) \\ s.t.\quad W^TW=I \end{array}$

求解

两种方法优化目标等价。

对它们使用拉格朗日乘子法得：
$XX^TW=\lambda W$
故只需对协方差矩阵 $XX^T$ 特征值分解，将求得的特征值排序，取前 $d^{'}$ 个特征值对应的特征向量构成 $W=(w_1,w_2,\cdots,w_{d'})$ ，这就是主成分分析的解。

小结

PCA仅需保留 $W$ 与样本的均值向量即可通过向量减法和矩阵-向量乘法将新样本投影到低维空间中。

降维导致对应最小的 $d - d^{'}$ 个特征值的特征向量被舍弃了，而舍弃这部分信息往往很有必要：

一方面，舍弃这部分信息使样本采样密度增大，这正式降维的重要动机；
另一方面，当数据收到噪声影响时，最小的特征值所对应的特征向量往往与噪声有关，将其社区能达到去噪效果。

核主成分分析

线性降维方法假设从高维空间到低维空间的函数映射是线性的，可现实常需要非线性映射才能找到合适的低维嵌入。

非线性降维的常用方法是基于核技巧对线性降维方法“核化”，核主成分分析（KPCA）便是一种。

$z_i$ 为样本点 $x_i$ 在高维特征空间中的像，我们把高维特征空间的数据投影到 $W$ 确定的超平面上，即PCA求解： $(\sum_{i=1}^{m}z_iz_i^T)W=\lambda W$
则 $W=\frac{1}{\lambda}(\sum_{i=1}^{m}z_iz_i^T)W=\sum_{i=1}^{m}z_i\frac{z_i^TW}{\lambda}=\sum_{i=1}^{m}z_i\alpha_i$
其中 $\alpha_i=\frac{1}{\lambda}z_i^TW$ 。

既然是非线性降维，我们可假定 $z_i=\phi (x_i)$ ，当 $\phi$ 可以显示的表达出来时，通过它将样本映射到高维特征空间，再在特征空间实施PCA即可。
$\begin{array}{c} (\sum_{i=1}^{m}\phi(x_i)\phi(x_i^T))W=\lambda W \\ \\ W=\sum_{i=1}^{m}\phi(x_i)\alpha_i \end{array}$

但一般情况下我们并不知道 $\phi$ 具体形式，于是引入核函数 $k(x_i,x_j)=\phi(x_i)\phi(x_i^T)$ ，于是有：
$KA=\lambda A$
它仍是一个特征值分解问题，取 $K$ 最大的 $d^{'}$ 个特征值对应的特征向量即可。

对新样本 $x$ ，它投影后的第 $j$ 维坐标为
$z_j=w_j^T\phi (x)=\sum_{i=1}^{m}\alpha_i^j\phi(x_i)^T\phi(x)=\sum_{i=1}^{m}\alpha_i^jk(x_i,x)$
显然KPCA需对所有样本求和，因此计算成本较大。

Reference

《机器学习》周志华

3points

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[机器学习]降维之主成分分析

降维之主成分分析问题引入主成分分析1.最近重构性2.最大可分性求解小结核主成分分析Reference问题引入在高维情形下常出现样本稀疏、距离计算困难等问题，这是所有机器学习方法共同面临的问题，称为维数灾难。为了缓解维数灾难一个重要途径就是“降维”。通过某种数学变换将原始高维属性空间转变为一个低维子空间，在该子空间中样本密度大幅提高，距离计算也变得更加容易。主成分分析主成分分析(Principal Component Analysis)PCA是最常用的一种降维方法。若存在一个超平面能够对所有样本进行
复制链接

扫一扫

专栏目录