机器学习——降维

最新推荐文章于 2023-11-21 16:10:49 发布

DCGJ666

最新推荐文章于 2023-11-21 16:10:49 发布

阅读量484

点赞数

分类专栏：深度学习文章标签：机器学习人工智能算法

本文链接：https://blog.csdn.net/dcgj666/article/details/124840462

版权

深度学习专栏收录该内容

39 篇文章 1 订阅

订阅专栏

机器学习——降维

降维的思路来源于维度灾难的问题，我们知道n维球的体积为：

CR^n

那么在求体积与边长为

2 R

的超立方体比值为：

\lim\limits_{n\rightarrow0}\frac{CR^n}{2^nR^n}=0

这就是所谓的维度灾难，在高维数据中，主要样本都分布在立方体的边缘，所以数据集更加稀疏。（因为，维度越高的球，靠近边缘的空间越大，如果数据符合均匀分布的话）
维度的算法分为：

直接降维，特征选择
线性降维，PCA，MDS等
分线性，流行包括lsomap,LLE
为了方便，我们首先将协方差矩阵写成中心化的形式：
$S=\frac{1}{N}\sum\limits_{i=1}^N(x_i-\overline{x})(x_i-\overline{x})^T\\ =\frac{1}{N}(x_1-\overline{x},x_2-\overline{x},\cdots,x_N-\overline{x})(x_1-\overline{x},x_2-\overline{x},\cdots,x_N-\overline{x})^T\\ =\frac{1}{N}(X^T-\frac{1}{N}X^T\mathbb{I}_{N1}\mathbb{I}_{N1}^T)(X^T-\frac{1}{N}X^T\mathbb{I}_{N1}\mathbb{I}_{N1}^T)^T\\ =\frac{1}{N}X^T(E_N-\frac{1}{N}\mathbb{I}_{N1}\mathbb{I}_{1N})(E_N-\frac{1}{N}\mathbb{I}_{N1}\mathbb{I}_{1N})^TX\\ =\frac{1}{N}X^TH_NH_N^TX\\ =\frac{1}{N}X^TH_NH_NX=\frac{1}{N}X^THX$
这个式子利用了中心矩阵H的对称性，这也是一个投影矩阵。

线性降维-主成分分析PCA

损失函数

主成分分析中，我们的基本型想法是将所有数据投影到一个子空间中，从而达到降维的目标，为了寻找这个子空间，我们基本想法是：

所有数据在子空间中更为分散
损失的信息最小，即：在补空间的分量少
原来的数据很有可能各个维度之间是相关的，于是我们希望找到一组p个新的线性无关的单位基 $\mu_i$ ，降维就是取其中的q个基。于是对于一个样本 $x_i$ ，经过这个坐标变换后：
$\hat{x_i}=\sum\limits_{i=1}^p(u_i^Tx_i)u_i=\sum\limits_{i=1}^q(u_i^Tx_i)u_i+\sum\limits_{i=q+1}^p(u_i^Tx_i)u_i$
对于数据集来说，我们首先将其中心化然后再去上面的式子的第一项，并使用其系数的平方平均作为损失函数并最大化：
$J=\frac{1}{N}\sum\limits_{i=1}^N\sum\limits_{j=1}^q((x_i-\overline{x})^Tu_j)^2\\ =\sum\limits_{j=1}^qu_j^TSu_j\ ,\ s.t.\ u_j^Tu_j=1$
由于每个基都是线性无关的，于是每一个 $\mu_j$ 的求解可以分别进行，使用拉个朗日乘子法：
$\mathop{argmax}_{u_j}L(u_j,\lambda)=\mathop{argmax}_{u_j}u_j^TSu_j+\lambda(1-u_j^Tu_j)$
于是：
$S\mu_j=\lambda\mu_j$
可见，我们需要的基就是协方差矩阵的特征向量。损失函数最大取在本征值前q个最大值。

SVD与PCoA

下面使用实际训练时常常使用的SVD直接求得这个q个本征矢。
对中心化后的数据集进行奇异值分解：
$HX=U\Sigma{V^T},U^TU=E_N,V^TV=E_p,\Sigma:N\times{P}$
于是：
$S=\frac{1}{N}X^THX=\frac{1}{N}X^TH^THX=\frac{1}{N}V\Sigma^T\Sigma{V^T}$
因此，我们直接对中心化后的数据集进行SVD，就可以得到特征值和特征向量V，在新坐标系中的坐标就是：
$H X . V$
由上面的推导，我们也可以得到另一种方法PCoA主坐标分析，定义并进行特征值分解：
$T=HXX^TH=U\Sigma\Sigma^TU^T$
由于：
$TU\Sigma=U\Sigma(\Sigma^T\Sigma)$
于是可以直接得到坐标。这两种方法都可以得到主成分，但是由于方差矩阵是 $p\times{p}$ 的，而T是 $N\times{N}$ 的，所以对样本量较少的时候可以采用PCoA的方法。

p-PCA

下面从概率的角度对PCA进行分析，概率方法也叫p-PCA。我们使用线性模型，类似之前LDA，我们选定一个方向，对原数据 $x\in\mathbb{R}^p$ ，降维后的数据为 $z\in\mathbb{R}^q,q<p$ 。降维通过一个矩阵变换（投影）进行：
$z\sim\mathcal{N}(\mathbb{O}_{q1},\mathbb{I}_{qq})\\ x=Wz+\mu+\varepsilon\\ \varepsilon\sim\mathcal{N}(0,\sigma^2\mathbb{I}_{pp})$
对于这个模型，我们可以使用期望-最大（EM）的算法进行学习，在进行推断的时候需要求得 $p (z ∣ x)$ ，推断的求解过程和线性高斯模型类型。
$p(z|x)=\frac{p(x|z)p(z)}{p(x)}\\ \mathbb{E}[x]=\mathbb{E}[Wz+\mu+\varepsilon]=\mu\\ Var[x]=WW^T+\sigma^2\mathbb{I}_{pp}\\ \Longrightarrow p(z|x)=\mathcal{N}(W^T(WW^T+\sigma^2\mathbb{I})^{-1}(x-\mu),\mathbb{I}-W^T(WW^T+\sigma^2\mathbb{I})^{-1}W)$

小结

在PCA中，我们只要直接对数据矩阵进行中心化然后求奇异值分解或者对数据的协方差矩阵进行分解就可以得到其主要维度。非线性学习的方法如流形学习将投影面从平面改为超曲面。

DCGJ666

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习——降维

机器学习——降维线性降维-主成分分析PCA损失函数SVD与PCoAp-PCA小结降维的思路来源于维度灾难的问题，我们知道n维球的体积为：CRnCR^nCRn那么在求体积与边长为2R2R2R的超立方体比值为：lim⁡n→0CRn2nRn=0\lim\limits_{n\rightarrow0}\frac{CR^n}{2^nR^n}=0n→0lim2nRnCRn=0这就是所谓的维度灾难，在高维数据中，主要样本都分布在立方体的边缘，所以数据集更加稀疏。（因为，维度越高的球，靠近边缘的空间越大，如果数
复制链接

扫一扫