tsne python_sklearn中tsne可视化

最新推荐文章于 2024-07-11 16:12:45 发布

weixin_39671631

最新推荐文章于 2024-07-11 16:12:45 发布

阅读量2.1k

点赞数

文章标签： tsne python

本文链接：https://blog.csdn.net/weixin_39671631/article/details/111811177

版权

t-SNE是一种有效的高维数据降维和可视化方法，尤其适合展示数据的局部结构。它通过转换高斯分布的概率到t分布，利用KL散度最小化来优化。Barnes-Hut t-SNE对速度进行了优化，适用于大型数据集。尽管计算复杂，但t-SNE在保持数据类别分离方面表现出色，如MNIST数据集的可视化所示。

摘要由CSDN通过智能技术生成

声明：

manifold：可以称之为流形数据。像绳结一样的数据，虽然在高维空间中可分，但是在人眼所看到的低维空间中，绳结中的绳子是互相重叠的不可分的。

对数据降维比较熟悉的朋友可以看这篇博客t-SNE实践——sklearn教程

数据降维与可视化——t-SNE

t-SNE是目前来说效果最好的数据降维与可视化方法，但是它的缺点也很明显，比如：占内存大，运行时间长。但是，当我们想要对高维数据进行分类，又不清楚这个数据集有没有很好的可分性(即同类之间间隔小，异类之间间隔大)，可以通过t-SNE投影到2维或者3维的空间中观察一下。如果在低维空间中具有可分性，则数据是可分的；如果在高维空间中不具有可分性，可能是数据不可分，也可能仅仅是因为不能投影到低维空间。

下面会简单介绍t-SNE的原理，参数和实例。

t-distributed Stochastic Neighbor Embedding(t-SNE)

t-SNE(TSNE)将数据点之间的相似度转换为概率。原始空间中的相似度由高斯联合概率表示，嵌入空间的相似度由“学生t分布”表示。

虽然Isomap，LLE和variants等数据降维和可视化方法，更适合展开单个连续的低维的manifold。但如果要准确的可视化样本间的相似度关系，如对于下图所示的S曲线(不同颜色的图像表示不同类别的数据)，t-SNE表现更好。因为t-SNE主要是关注数据的局部结构。

通过原始空间和嵌入空间的联合概率的Kullback-Leibler(KL)散度来评估可视化效果的好坏，也就是说用有关KL散度的函数作为loss函数，然后通过梯度下降最小化loss函数，最终获得收敛结果。注意，该loss不是凸函数，即具有不同初始值的多次运行将收敛于KL散度函数的局部最小值中，以致获得不同的结果。因此，尝试不同的随机数种子(Python中可以通过设置seed来获得不同的随机分布)有时候是有用的，并选择具有最低KL散度值的结果。

使用t-SNE的缺点大概是：

t-SNE的计算复杂度很高，在数百万个样本数据集中可能需要几个小时，而PCA可以在几秒钟或几分钟内完成

Barnes-Hut t-SNE方法(下面讲)限于二维或三维嵌入。

算法是随机的，具有不同种子的多次实验可以产生不同的结果。虽然选择loss最小的结果就行，但可能需要多次实验以选择超参数。

全局结构未明确保留。这个问题可以通过PCA初始化点(使用init ='pca')来缓解。

优化 t-SNE

t-SNE的主要目的是高维数据的可视化。因此，当数据嵌入二维或三维时，效果最好。有时候优化KL散度可能有点棘手。有五个参数可以控制t-SNE的优化，即会影响最后的可视化质量：

perplexity困惑度

early exaggeration fac