常见降维方法的总结

一、拉普拉斯特征映射(Laplacian Eigenmaps,LE)

(1)特点

  • 非线性的降维方法
  • 降维的同时保留局部近邻节点的信息
  • 属于流形学习

(2)目标函数

未添加限制条件:
\[\sum_{ij}({\mathit y_i\,-\,y_j})^2\mathbf W_{ij}\]
添加限制条件并简化后:
\[\underset{\mathbf {y^TDy}=1,\mathbf {y^TD1=0} }{\operatorname{argmin}}\mathbf {y^TLy}\]

(3)需求解的特征方程

\[\mathbf {Ly\,=\,\lambda Dy}\]

(4)优点

  • LE的局部特征保留特性使得它对孤立点和噪音不会那么敏感
  • 算法基于流形的内在几何结构,因此它展示出嵌入的稳定性。只要嵌入是等度量的(Isometric),这个表示就是不变的。在移动相机的例子里,相机不同的解析度将会导致同一个流形嵌入到不同维度的空间中去。我们的算法可以产生相似的表现(Representation),即使是不同的分辨率.

二、局部保留投影(Locality Preserving Projections,LPP)

(1)特点

  • 线性降维
  • 降维的同时保留局部近邻节点的信息
  • 属于流形学习

(2)目标函数

未添加限制条件:\[\sum_{ij}({\mathit y_i\,-\,y_j})^2\mathbf W_{ij}\]
添加限制条件并简化后:
\[\underset{\underset{\bf a^TXDX^Ta=1}{a}}{\operatorname{argmin}}\bf a^TXLX^Ta\]

(3)待求解的特征方程

\[XLX^T\bf {a}\,=\,\lambda XDX^T\bf a\]

(4)优点

  • 线性方法
  • LPP被定义在空间的任何一点。与之对比的是,ISOMAP,LLE,LE等算法都只能用于训练数据上,而对于新的测试数据却并没有一个比较好的映射
  • LPP算法可以被引入数据集所映射到的RKHS(再生核希尔伯特空间),因此就有了核LPP算法

三、多维缩放(Multidimensional Scaling,MDS)

(1)特点

  • 在降维的同时尽量保持欧式距离不变\(:\bf X \to Z\)同时$D_{ij} = {\parallel x_i-x_j\parallel}_2={\parallel z_i-z_j \parallel}_2 $
  • 非线性

(2)算法核心推导

1.D->B:
\(b_{ij}\,=\, -{ {1 \over 2} (dist_{ij}^2 - dist_{i \cdot}^2 - dist_{\cdot j}^2 + dist_{\cdot \cdot}^2 ) }\)
2.B->Z
\(\bf B\,=\,V\Lambda V^T \\ {\bf Z\,=\,\Lambda^{1 \over 2}V^T}\)

四、等度量映射(Isometric Mapping,Isomap)

(1)特点

  • 属于流形学习的一种
  • 认为低维流形嵌入高维空间后,低维流形两点间的距离是测地线距离(geodesic)
  • 利用两点间的最短路径来近似两点间的测地线距离。因此,当空间中的数据点稠密时,近似效果较好,误差较小;当数据点稀疏时,效果就不太好。

(2)算法核心步骤

kNN找近邻 -> 最短路径计算 -> 距离矩阵输入MDS -> 从MDS得到低维的矩阵

五、局部线性嵌入(Locally Linear Embedding,LLE)

(1)特点
  • 假设数据在较小的局部是线性的,也就是说,某一个数据可以由它邻域中的几个样本来线性表示,\(x_i=w_{ij}x_{ij}+w_{ik}x_{ik}+w_{il}x_{il}\)
  • 算法试图在降维到低维空间时保持样本间的这种线性关系
  • 相比于Isomap求全局最优解,LLE算法计算量较小

(2)算法核心推导

X->W:
目标函数1
\[ \underset{w_1,w_2,\cdots,w_m}{\operatorname{min}} \sum_{i=1}^m || x_i-\sum_{j\in Q_i} w_{ij}x_j ||_2^2 \qquad s.t.\; \sum_{j\in Q_i} w_{ij} = 1 \]
\(C_{jk}=(x_i-x_j)^T(x_i-x_j).\)由上式推出
\[w_{ij}={{\sum\limits_{k\in Q_i}C_{jk}^{-1}}\over{\sum\limits_{l,s\in Q_i}C_{ls}^{-1}}}\]
于是得到\(\bf W\)

W->M->Z
目标函数2
\[ \underset{z_1,z_2,\cdots,z_m}{\operatorname{min}} \sum_{i=1}^m || z_i-\sum_{j\in Q_i} w_{ij}z_j ||_2^2 \qquad s.t.\; \sum_{j\in Q_i} w_{ij} = 1 \]
\(\bf M=(I-W)^T(I-W)\),则目标函数2化简为
\[\underset{\bf Z}{\operatorname{min}}\,tr(\bf ZMZ^T),\qquad s.t. \; \bf ZZ^T=I\]
上式可通过特征值分解求解:M最小的\(d^{'}\)个特征值对应的特征向量组成的矩阵即为\(Z^T\).

六、线性判别分析(Linear Discriminant Analysis,LDA)

(1)特点

  • 映射后类内方差最小,类间方差最大

(2)算法核心步骤

计算类间散度矩阵:
\[S_b = \sum\limits_{j=1}^{k}N_j(\mu_j-\mu)(\mu_j-\mu)^T\]
其中,假设有k个类,每个类有\(N_j\)个节点,每个类的均值节点为\(\mu_j\),所有节点的均值节点为\(\mu\)
计算类内散度矩阵:
\[S_w = \sum\limits_{j=1}^{k}S_{wj} = \sum\limits_{j=1}^{k}\sum\limits_{x \in X_j}(x-\mu_j)(x-\mu_j)^T\]
其中,\(X_j\)为第j类样本的集合.
目标函数:
\[\underbrace{arg\;max}_W\;\;J(W) = \frac{\prod\limits_{diag}W^TS_bW}{\prod\limits_{diag}W^TS_wW}\]
其中\(\prod\limits_{diag}A\)为A的主对角线元素的乘积,W为m×d的矩阵。
求投影矩阵
求矩阵\(S_w^{-1}S_b\),计算\(S_w^{-1}S_b\)的最大的d个特征值和对应的d个特征向量\((w_1,w_2,...w_d)\)得到投影矩阵\(W\).
于是\(z_i=W^Tx_i\)

七、主分量分析(Principal components analysis,PCA)

(1)特点

  • 第一种解释:尝试找到一个超平面,样本点到这个超平面的距离足够近
  • 第二种解释:尝试找到一个投影的方向,样本点投影后的点的方差最大

(2)算法核心

最大投影方差:
\(W\)为投影矩阵,则样本\(x^{(i)}\)在新坐标里的投影为\(W^Tx^{(i)}\),在新坐标内的方差为\(W^Tx^{(i)}x^{(i)T}W\),则目标函数为:
\[\underbrace{arg\;max}_{W}\;tr( W^TXX^TW) \;\;s.t. W^TW=I\]
由拉格朗日函数可以求得上述方程的解为:
\[XX^TW=(-\lambda)W\]
则W为\(XX^T\)的n'个特征向量组成的矩阵,而−λ为\(XX^T\)的特征值。当我们将数据集从n维降到n'维时,需要找到最大的n'个特征值对应的特征向量。这n'个特征向量组成的矩阵W即为我们需要的矩阵。

Reference

[1]《机器学习》.周志华
[2] 刘建平的博客

转载于:https://www.cnblogs.com/poxiaoge/p/7074822.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值