机器学习算法之数据降维

最新推荐文章于 2022-12-07 20:16:55 发布

Senit_Co

最新推荐文章于 2022-12-07 20:16:55 发布

阅读量4.6k

点赞数

分类专栏： machine-learning 文章标签：机器学习数据降维 PCA LDA MDS

本文链接：https://blog.csdn.net/Zachary_Co/article/details/78692835

版权

本文介绍了机器学习中数据降维的重要方法，包括PCA、MDS、LDA、Isomap、LLE、t-SNE和Laplacian Eigenmaps。这些方法通过不同策略将高维数据映射到低维空间，如PCA追求最大方差，LDA侧重于类别分离，而t-SNE适合数据可视化。

摘要由CSDN通过智能技术生成

原文站点：https://senitco.github.io/2017/05/10/data-dimensionality-reduction/

数据降维是通过某种数学变换将原始高维属性空间，转变为一个低维子空间，对数据进行降维，可以有效地去除样本中冗余的属性，减少数据容量，缓解维数灾难，加快学习速度。数据降维的常用方法有主成分分析(PCA)、多维缩放(MDS)、线性判别分析(LDA)、等度量映射(Isomap)、局部线性嵌入(LLE)、t分布随机邻域嵌入(t-SNE)、Laplacian Eigenmaps等。

主成分分析(PCA)

主成分分析是一种线性降维方法，将高维空间映射到低维空间，并使得所有样本在低维空间的投影点尽可能分开，也就是低维子空间对样本具有最大可分性，为了实现这种最大可分性，应该使投影后样本的方差最大化。

对于一个维数为 $D$ 的高维空间，样本点 $x_i=(x_1,x_2,…,x_D)$ 通过与矩阵 $W$ 相乘映射到低维空间（维数为 $d$ ， $d<D$ ）中的某个点 $z_i=W^T x_i=(z_1,z_2,…,z_d)$ ，矩阵 $W$ 的大小是 $D\ast d$ 。令数据样本集的大小为 $N$ ，PCA的目标是要让低维子空间中 $z_{i}$ 尽可能地分开，因此投影后样本的方差要尽可能的大。假定数据样本进行了中心化，数据每一维的均值为 $0$ ，即 $\Sigma_{i}x_{i}=0$ ，乘上矩阵 $W^T$ 得到的降维后的数据每一维均值也为 $0$ ，考虑高维空间中原始样本数据集的协方差矩阵 $C=\dfrac{1}{N}\ast XX^T$ ，协方差矩阵中对角线上的值为某一维的方差，非对角线上的值为两维之间的协方差。降维后低维子空间中相应的协方差矩阵为 $B=\dfrac{1}{N}\ast ZZ^T$ ，如果希望降维后的点具有最大的可分性，那么协方差矩阵 $B$ 对角线上的值也就是每一维的方差应该尽可能的大，同时为了让不同的属性能够更多地表示原始信息，而不包含冗余的信息，可以使不同属性之间正交，这种情况下矩阵 $B$ 非对角线上的值即不同维之间的协方差为 $0$ 。因此降维后的每一维既有足够的区分性，又能代表不同的信息。对于矩阵 $B$ ，可进一步推导出

B = 1 N * Z Z T = 1 N * W T X (W T X) T = W T (1 N * X X T) W = W T C W

$B=\dfrac{1}{N}\ast ZZ^T=\dfrac{1}{N}\ast W^T X(W^T X)^T=W^T (\dfrac{1}{N}\ast XX^T)W=W^TCW$
这个式子表明，线性变换矩阵

W $W$ 实现数据降维的过程是将高维空间中的协方差矩阵

C $C$ 对角化，因此可通过求协方差矩阵

C $C$ 的特征值以及对应的特征向量来确定投影变换矩阵

W $W$ 。PCA的算法流程如下所述：

输入：样本集 ${x_1,x_2,…,x_N }$ ，低维空间的维数 $d$ ；
过程：
对所有数据样本进行中心化 $x_i=x_i-\dfrac{1}{N} \Sigma_{i}x_{i}$ ；
计算样本的协方差矩阵 $C=\dfrac{1}{N} XX^T$ ；
对协方差矩阵 $C$ 做特征值分解：
取最大的 $d$ 个特征值对应的特征向量 $w_1,w_2,…,w_d$ ；
输出：投影矩阵 $W=(w_1,w_2,…,w_d)$ ， $w_i$ 为 $D$ 维列向量。

多维缩放(MDS)

多维缩放要求原始高维空间中数据样本之间的距离在低维空间中保持不变，即在降维的过程中保留原始数据的差异性。

假定 $N$ 个样本在 $D$ 维原始空间的距离矩阵为 $A\in R^{N×N}$ ，其第 $i$ 行第 $j$ 列的元素 $a_{ij}$ 为样本 $x_i$ 到 $x_j$ 的距离。多维缩放的目标是获得数据样本在 $d$ 维空间的表示 $Z\in R^{d×N}$ , $d≤D$ ，且任意两个样本在低维空间的欧氏距离等于原始空间中的距离，即 $\left|z_i-z_j \right|=a_{ij}$ 。令 $B=Z^T Z\in R^{N×N}$ ,其中 $B$ 为降维后样本的內积矩阵， $b_{ij}=z_i^T z_j$ ，根据样本在原始空间和低维空间的距离相等有