TSNE——目前最好的降维方法

本文介绍了TSNE(t-distributed Stochastic Neighbor Embedding)作为流形学习的一种,是高维数据降维和可视化的优秀方法。TSNE通过保持高维和低维空间中样本分布的概率相似性,解决了拥挤问题。文章讨论了流形学习的基本概念、分类,重点展示了TSNE在MNIST数据集上的应用,并与其他降维算法的效果进行了对比。
摘要由CSDN通过智能技术生成

转自:http://blog.csdn.net/u012162613/article/details/45920827

1.流形学习的概念

流形学习方法(Manifold Learning),简称流形学习,自2000年在著名的科学杂志《Science》被首次提出以来,已成为信息科学领域的研究热点。在理论和应用上,流形学习方法都具有重要的研究意义。

假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。

以上选自百度百科

简单地理解,流形学习方法可以用来对高维数据降维,如果将维度降到2维或3维,我们就能将原始数据可视化,从而对数据的分布有直观的了解,发现一些可能存在的规律。

"

官方代码思想是一遍聚类一遍降维,其实也是一种比较好的自动聚类方法。

高维数据每个数据点被认为是一种正太分布数据(正太有三好),低维数据同样,然后让高维数据和低维数据相似度最大。又因为t分布好算而且和正太分布逼近,所以用了t分布来算就成了tsne方法。

"

2.流形学习的分类

可以将流形学习方法分为线性的和非线性的两种,线性的流形学习方法如我们熟知的主成份分析(PCA),非线性的流形学习方法如等距映射(Isomap)、拉普拉斯特征映射(Laplacian eigenmaps,LE)、局部线性嵌入(Locally-linear embedding,LLE)。

当然,流形学习方法不止这些,因学识尚浅,在此我就不展开了,对于它们的原理,也不是一篇文章就能说明白的。对各种流形学习方法的介绍,网上有一篇不错的读物(原作已找不到): 流形学习 (Manifold Learning)

3.高维数据降维与可视化

对于数据降维,有一张图片总结得很好(同样,我不知道原始出处):

这里写图片描述

图中基本上包括了大多数流形学习方法,不过这里面没有t-SNE,相比于其他算法,t-SNE算是比较新的一种方法,也是效果比较好的一种方法。t-SNE是深度学习大牛Hinton和lvdmaaten(他的弟子?)在2008年提出的,lvdmaaten对t-SNE有个主页介绍:tsne,包括论文以及各种编程语言的实现。

接下来是一个小实验,对MNIST数据集降维和可视化,采用了十多种算法,算法在sklearn里都已集成,画图工具采用matplotlib。大部分实验内容都是参考sklearn这里的example,稍微做了些修改。

Matlab用户可以使用lvdmaaten提供的工具箱: 

### 回答1: 数据降维通常被认为是数据挖掘和机器学习中的重要工具。它的目的是在不丢失太多信息的情况下减少数据的维数以便于处理。PCA和t-SNE是两种常见的降维技术。下面我们来看看它们之间的区别: PCA(Principal Component Analysis,主成分分析)是一种线性降维方法。它通过线性变换将高维数据映射到低维空间,保留尽可能多的原始数据的信息。在PCA中,数据由它的主成分分析的线性组合表示。主成分分析能有效地捕捉到数据的方差结构,但是它可能会忽略重要的非线性结构。PCA不适合用于非线性数据集的降维。 t-SNE(t-Distributed Stochastic Neighbor Embedding,t分布随机邻居嵌入)是一种非线性降维方法。它能够有效地处理高维空间中的非线性关系,并可将这些关系表现在低维空间中。t-SNE能够用来发现数据的嵌入模式,它考虑到每个领域中的所有点,而不仅仅是最近邻点。但是t-SNE计算复杂度较高,需要大量的计算时间和内存资源。 综上所述,PCA和t-SNE是两种不同的降维方法。PCA是一种线性降维方法,适合于线性数据集。t-SNE是一种非线性降维方法,适合于非线性数据集。在选择降维方法时,应该根据数据的结构和降维目的来选择。 ### 回答2: tsne和pca都是常用的降维方法,它们的目的都是将高维数据映射到一个低维空间,以便于可视化和数据分析。 首先,tsne和pca的降维方式不同。pca基于数据的协方差矩阵,通过对其进行特征值分解来得到主成分,也就是数据投影后的新坐标轴。而tsne基于高维数据的相似性度量,通过在低维空间中最小化样本间的KL距离,来将高维数据映射为低维表示。 其次,tsne和pca的降维效果也有所不同。pca主要关注保持原有数据的方差,将方差大的特征投影到主成分上,保留最显著的信息。相较而言,tsne基于局部相似度的聚类,更适用于寻找数据中的团簇结构(类似于k-means 算法),得到的降维结果更具有可解释性、更适用于数据分类、聚类等数据挖掘任务。 再次,tsne的计算比pca更慢。由于tsne相比于pca多了一个KL散度的计算,同时将高维空间中的相似性转化为低维空间中的概率分布,因此tsne算法计算的复杂度和时间更高。不过,tsne得到的结果比pca更具有可解释性,同时也能更好地反映数据中的局部结构。 总之,tsne和pca都是常用的降维方法,并且在不同的应用场景中有不同的表现和优劣。在实际应用中,需要根据具体问题的需求来选择适合的降维方法。 ### 回答3: PCA(Principal Component Analysis)和t-SNE(t-Distributed Stochastic Neighbor Embedding)是常见的降维方法。它们都是将高维数据转换为低维表示,以便于数据处理和可视化。下面来介绍一下它们的主要区别。 首先,PCA是一种线性降维方法,它的主要思想是找到使得数据方差最大的方向,然后将数据投影到这个方向上得到一个新的一维(或多维)空间,如下图所示: ![PCA Demo](https://i.imgur.com/LvOinjD.png) 在这个新的一维空间中,数据之间的距离可以被保留,但是数据的原始特征会被丢失。而t-SNE则是一种非线性降维方法,它的主要思想是将高维数据映射到低维空间中,同时保持数据之间局部距离的相对关系,全局距离的相对关系则可以被忽略。如下图所示: ![t-SNE Demo](https://i.imgur.com/4QoovV9.png) 可以看到,在低维空间中,数据点之间的距离关系可能会被扭曲,但是相对的局部距离关系被保留。 其次,PCA和t-SNE的应用场景也有所不同。PCA适用于线性数据降维,尤其是在大量样本数据中找到主成分进行压缩;而t-SNE主要适用于高维数据聚类分析、可视化、异常值检测等,尤其是当数据之间的相对位置关系比较重要时。 再次,PCA和t-SNE在计算速度上也有一定区别。PCA可以使用特征值分解等一些快速算法进行计算,速度相对较快;而t-SNE的计算速度较慢,尤其在大规模数据处理时需要较长时间。 总之,PCA和t-SNE在降维的基本思路、适用场景和计算速度等方面存在差异。在具体应用时需要根据数据类型和处理目的选择合适的降维方法
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值