FW:维度打击,机器学习中的降维算法:ISOMAP & MDS_拔剑-浆糊的传说_新浪博客...

本文介绍了机器学习中的降维算法ISOMAP和MDS,强调了降维在数据可视化和模型效果提升中的作用。ISOMAP通过kNN找到最近邻并计算最短路径来构造距离矩阵,然后应用MDS进行降维。MDS则从距离矩阵出发,通过特征分解实现数据降维。文中还包括MDS在地理数据可视化上的应用实例。
摘要由CSDN通过智能技术生成
2016-11-19 13:15 83人阅读 评论(0) 收藏 举报
本文章已收录于:
FW:维度打击,机器学习中的降维算法:ISOMAP <wbr>& <wbr>MDS 分类:
机器学习 (40) FW:维度打击,机器学习中的降维算法:ISOMAP <wbr>& <wbr>MDS FW:维度打击,机器学习中的降维算法:ISOMAP <wbr>& <wbr>MDS

版权声明:本文为博主原创文章,未经博主允许不得转载。

降维是机器学习中很有意思的一部分,很多时候它是无监督的,能够更好地刻画数据,对模型效果提升也有帮助,同时在数据可视化中也有着举足轻重的作用。

一说到降维,大家第一反应总是PCA,基本上每一本讲机器学习的书都会提到PCA,而除此之外其实还有很多很有意思的降维算法,其中就包括isomap,以及isomap中用到的MDS。

ISOMAP是‘流形学习’中的一个经典算法,流形学习贡献了很多降维算法,其中一些与很多机器学习算法也有结合,但上学的时候还看了蛮多的机器学习的书,从来没听说过流形学习的概念,还是在最新的周志华版的《机器学习》里才看到,很有意思,记录分享一下。

流形学习

流形学习应该算是个大课题了,它的基本思想就是在高维空间中发现低维结构。比如这个图:此处输入图片的描述
这些点都处于一个三维空间里,但我们人一看就知道它像一块卷起来的布,图中圈出来的两个点更合理的距离是A中蓝色实线标注的距离,而不是两个点之间的欧式距离(A中蓝色虚线)。

此时如果你要用PCA降维的话,它根本无法发现这样卷曲的结构(因为PCA是典型的线性降维,而图示的结构显然是非线性的),最后的降维结果就会一团乱麻,没法很好的反映点之间的关系。而流形学习在这样的场景就会有很好的效果。

我对流形学习本身也不太熟悉,还是直接说算法吧。

ISOMAP

在降维算法中,一种方式是提供点的坐标进行降维,如PCA;另一种方式是提供点之间的距离矩阵,ISOMAP中用到的MDS(Multidimensional Scaling)就是这样。
在计算距离的时候,最简单的方式自然是计算坐标之间的欧氏距离,但ISOMAP对此进行了改进,就像上面图示一样:

1.通过kNN(k-Nearest Neighbor)找到点的k个最近邻,将它们连接起来构造一张图。
2.通过计算同中各点之间的最短路径,作为点之间的距离dij 放入距离矩阵D
3.D 传给经典的MDS算法,得到降维后的结果。

ISOMAP本身的核心就在构造点之间的距离,初看时不由得为其拍案叫绝,类似的思想在很多降维算法中都能看到,比如能将超高维数据进行降维可视化的t-SNE。
ISOMAP效果,可以看到选取的最短路径比较好地还原了期望的蓝色实线,用这个数据进行降维会使流形得以保持:
此处输入图片的描述
ISOMAP算法步骤可谓清晰明了,所以本文主要着重讲它中间用到的MDS算法,也是很有意思的。

经典MDS(Multidimensional Scaling)

如上文所述,MDS接收的输入是一个距离矩阵D ,我们把一些点画在坐标系里:
此处输入图片的描述
如果只告诉一个人这些点之间的距离(假设是欧氏距离),他会丢失那些信息呢?
a.我们对点做平移,点之间的距离是不变的。
b.我们对点做旋转、翻转,点之间的距离是不变的。

所以想要从D 还原到原始数据X 是不可能的,因为只给了距离信息之后本身就丢掉了很多东西,不过不必担心,即使这样我们也可以对数据进行降维。

我们不妨假设:X 是一个n×q 的矩阵,n为样本数,q是原始的维度
计算一个很重要的矩阵B

B=XXT    (n×n)=(XM)(XM)T    (M)=XMMTX=XXT

可以看到我们通过 MX 做正交变换并不会影响 B 的值,而 正交变换刚好就是对数据做旋转、翻转操作的
所以如果我们想通过 B 反算出 X ,肯定是没法得到真正的 X , 而是它的任意一种正交变换后的结果。

B中每个元素的值为:

bij=k=1qxikxjk

计算距离矩阵 D ,其中每个元素值为:
d2ij
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值