常见降维方法的总结

最新推荐文章于 2019-09-10 11:30:47 发布

weixin_30514745

最新推荐文章于 2019-09-10 11:30:47 发布

阅读量258

点赞数

文章标签： javascript 人工智能 ViewUI

原文链接：http://www.cnblogs.com/poxiaoge/p/7074822.html

版权

一、拉普拉斯特征映射(Laplacian Eigenmaps,LE)

(1)特点

非线性的降维方法
降维的同时保留局部近邻节点的信息
属于流形学习

(2)目标函数

未添加限制条件:
\[\sum_{ij}({\mathit y_i\,-\,y_j})^2\mathbf W_{ij}\]
添加限制条件并简化后:
\[\underset{\mathbf {y^TDy}=1,\mathbf {y^TD1=0} }{\operatorname{argmin}}\mathbf {y^TLy}\]

(3)需求解的特征方程

\[\mathbf {Ly\,=\,\lambda Dy}\]

(4)优点

LE的局部特征保留特性使得它对孤立点和噪音不会那么敏感
算法基于流形的内在几何结构，因此它展示出嵌入的稳定性。只要嵌入是等度量的(Isometric)，这个表示就是不变的。在移动相机的例子里，相机不同的解析度将会导致同一个流形嵌入到不同维度的空间中去。我们的算法可以产生相似的表现（Representation）,即使是不同的分辨率.

二、局部保留投影(Locality Preserving Projections,LPP)

(1)特点

线性降维
降维的同时保留局部近邻节点的信息
属于流形学习

(2)目标函数

未添加限制条件:\[\sum_{ij}({\mathit y_i\,-\,y_j})^2\mathbf W_{ij}\]
添加限制条件并简化后:
\[\underset{\underset{\bf a^TXDX^Ta=1}{a}}{\operatorname{argmin}}\bf a^TXLX^Ta\]

(3)待求解的特征方程

\[XLX^T\bf {a}\,=\,\lambda XDX^T\bf a\]

(4)优点

线性方法
LPP被定义在空间的任何一点。与之对比的是，ISOMAP，LLE，LE等算法都只能用于训练数据上，而对于新的测试数据却并没有一个比较好的映射
LPP算法可以被引入数据集所映射到的RKHS(再生核希尔伯特空间)，因此就有了核LPP算法

三、多维缩放（Multidimensional Scaling,MDS）

(1)特点

在降维的同时尽量保持欧式距离不变$:\bf X \to Z$同时$D_{ij} = {\parallel x_i-x_j\parallel}_2={\parallel z_i-z_j \parallel}_2 $
非线性

(2)算法核心推导

1.D->B:
$b_{ij}\,=\, -{ {1 \over 2} (dist_{ij}^2 - dist_{i \cdot}^2 - dist_{\cdot j}^2 + dist_{\cdot \cdot}^2 ) }$
2.B->Z
$\bf B\,=\,V\Lambda V^T \\ {\bf Z\,=\,\Lambda^{1 \over 2}V^T}$

四、等度量映射（Isometric Mapping，Isomap)

(1)特点

属于流形学习的一种
认为低维流形嵌入高维空间后，低维流形两点间的距离是测地线距离（geodesic)
利用两点间的最短路径来近似两点间的测地线距离。因此，当空间中的数据点稠密时，近似效果较好，误差较小；当数据点稀疏时，效果就不太好。

(2)算法核心步骤

kNN找近邻 -> 最短路径计算 -> 距离矩阵输入MDS -> 从MDS得到低维的矩阵

五、局部线性嵌入(Locally Linear Embedding,LLE)

(1)特点

假设数据在较小的局部是线性的，也就是说，某一个数据可以由它邻域中的几个样本来线性表示，$x_i=w_{ij}x_{ij}+w_{ik}x_{ik}+w_{il}x_{il}$
算法试图在降维到低维空间时保持样本间的这种线性关系
相比于Isomap求全局最优解，LLE算法计算量较小

(2)算法核心推导

X->W:
目标函数1
\[ \underset{w_1,w_2,\cdots,w_m}{\operatorname{min}} \sum_{i=1}^m || x_i-\sum_{j\in Q_i} w_{ij}x_j ||_2^2 \qquad s.t.\; \sum_{j\in Q_i} w_{ij} = 1 \]
令$C_{jk}=(x_i-x_j)^T(x_i-x_j).$由上式推出
\[w_{ij}={{\sum\limits_{k\in Q_i}C_{jk}^{-1}}\over{\sum\limits_{l,s\in Q_i}C_{ls}^{-1}}}\]
于是得到$\bf W$

W->M->Z
目标函数2
\[ \underset{z_1,z_2,\cdots,z_m}{\operatorname{min}} \sum_{i=1}^m || z_i-\sum_{j\in Q_i} w_{ij}z_j ||_2^2 \qquad s.t.\; \sum_{j\in Q_i} w_{ij} = 1 \]
令$\bf M=(I-W)^T(I-W)$，则目标函数2化简为
\[\underset{\bf Z}{\operatorname{min}}\,tr(\bf ZMZ^T),\qquad s.t. \; \bf ZZ^T=I\]
上式可通过特征值分解求解:M最小的$d^{'}$个特征值对应的特征向量组成的矩阵即为$Z^T$.

六、线性判别分析（Linear Discriminant Analysis,LDA）

(1)特点

映射后类内方差最小，类间方差最大

(2)算法核心步骤

计算类间散度矩阵：
\[S_b = \sum\limits_{j=1}^{k}N_j(\mu_j-\mu)(\mu_j-\mu)^T\]
其中,假设有k个类,每个类有$N_j$个节点,每个类的均值节点为$\mu_j$,所有节点的均值节点为$\mu$
计算类内散度矩阵：
\[S_w = \sum\limits_{j=1}^{k}S_{wj} = \sum\limits_{j=1}^{k}\sum\limits_{x \in X_j}(x-\mu_j)(x-\mu_j)^T\]
其中,$X_j$为第j类样本的集合.
目标函数：
\[\underbrace{arg\;max}_W\;\;J(W) = \frac{\prod\limits_{diag}W^TS_bW}{\prod\limits_{diag}W^TS_wW}\]
其中$\prod\limits_{diag}A$为A的主对角线元素的乘积，W为m×d的矩阵。
求投影矩阵
求矩阵$S_w^{-1}S_b$,计算$S_w^{-1}S_b$的最大的d个特征值和对应的d个特征向量$(w_1,w_2,...w_d)$得到投影矩阵$W$.
于是$z_i=W^Tx_i$

七、主分量分析(Principal components analysis,PCA)

(1)特点

第一种解释：尝试找到一个超平面，样本点到这个超平面的距离足够近
第二种解释：尝试找到一个投影的方向，样本点投影后的点的方差最大

(2)算法核心

最大投影方差：
设$W$为投影矩阵，则样本$x^{(i)}$在新坐标里的投影为$W^Tx^{(i)}$,在新坐标内的方差为$W^Tx^{(i)}x^{(i)T}W$,则目标函数为:
\[\underbrace{arg\;max}_{W}\;tr( W^TXX^TW) \;\;s.t. W^TW=I\]
由拉格朗日函数可以求得上述方程的解为:
\[XX^TW=(-\lambda)W\]
则W为$XX^T$的n'个特征向量组成的矩阵，而−λ为$XX^T$的特征值。当我们将数据集从n维降到n'维时，需要找到最大的n'个特征值对应的特征向量。这n'个特征向量组成的矩阵W即为我们需要的矩阵。

Reference

[1]《机器学习》.周志华
[2] 刘建平的博客

转载于:https://www.cnblogs.com/poxiaoge/p/7074822.html

weixin_30514745

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
常见降维方法的总结

一、拉普拉斯特征映射(Laplacian Eigenmaps,LE)(1)特点非线性的降维方法降维的同时保留局部近邻节点的信息属于流形学习(2)目标函数未添加限制条件:\[\sum_{ij}({\mathit y_i\,-\,y_j})^2\mathbf W_{ij}\]添加限制条件并简化后:\[\underset{\mathbf {y^TDy}=1,\mathbf {y^T...
复制链接

扫一扫