t-SNE(t-distributed stochastic neighbor embedding)

最新推荐文章于 2024-07-17 06:30:00 发布

lanmengyiyu

最新推荐文章于 2024-07-17 06:30:00 发布

阅读量8.7k

点赞数 2

分类专栏：深度学习相关（cs231n）文章标签： t-SNE 数据可视化数据降维

本文链接：https://blog.csdn.net/lanmengyiyu/article/details/81604332

版权

深度学习相关（cs231n）专栏收录该内容

49 篇文章 6 订阅

订阅专栏

之所以谈及t-SNE，主要是因为在深度学习的测试中需要可视化来分析数据的特点，以便于在分类任务中能够知道相似类别之间是否间隔够小，不同类别之间是否间隔够大。从而知道数据是否具有可分性，这是一种无监督的方法，是一种聚类，个人认为在众多不同类型的算法中，包括图像预处理balabala，聚类算法是总重要的，对最终的性能影响也最大。

那么在提到t-SNE时，首先应该了解SNE的思路，SNE其实就是将高维的数据，通过条件概率来表示点与点之间的相似性，因此如果用过sklearn.manifold 的TSNE的话，应该会对下面的图片比较熟悉，颜色越为相近就表示越可能是同一类别。
这里写图片描述
那么为什么是t分布呢，这主要是因为t分布相比于正态分布而言，尾部更高更长一些，这样有助于数据在二维空间中更加均匀的分布。其中红线表示正态分布，绿线，蓝线和黄线表示t分布，并且自由度依次降低。
这里写图片描述

那我们知道了基本思想之后再来看基本原理，当然还是从SNE开始。我们用原始空间和嵌入空间的联合概率的KL（Kullback-Leibler）散度来作为损失函数，以此来作为收敛条件。
那么在原始的高维空间，两点之间相似性的条件概率我们可以用下式表示：
这里写图片描述
值得注意的是， $\sigma$ 对于不同的点取值不同，怎么设置是个问题，先留个疑问，之后研究。
对于低维的嵌入空间，方便起见，我们先用正态分布表示，那么两点之间相似性的条件概率我们可以用下式表示：
这里写图片描述
如果说降维比较好，没有破坏局部特征，那么两个概率应该相等，因此loss可以用下式表示：

需要注意的一点是，KL散度是不对称的，换句话说如果用q=0.7表示p=0.3所得到的loss要比q=0.3表示p=0.7小，这其实就说明了，KL散度倾向于保留数据之间的局部特性。