十几年前的降维可视化算法有这么好的效果？还得是Hinton。带你不使用任何现成库手敲t-SNE。

kaiserqzyue

已于 2024-04-23 18:45:59 修改

阅读量1k

点赞数 30

分类专栏：机器学习文章标签：算法数据可视化

于 2024-04-23 17:14:22 首次发布

本文链接：https://blog.csdn.net/qq_45523675/article/details/138133125

版权

问题描述

依据Visualizing Data using t-SNE实现t-SNE算法，并对MNIST或者Olivetti数据集进行可视化训练。

有以下几点要求：

不能使用现成的t-SNE库，例如sklearn等；
可以使用支持矩阵、向量操作的库实现，例如numpy；
将数据降低至二维，同一类型的数据使用同一种颜色绘制散点图。

符号介绍

$x_i$ ：第 $i$ 个原始数据；
$y_i$ ：第 $i$ 个输出数据；
$p_{j\vert i}$ ：输入的条件概率；
$p_{ij}$ ：输入的联合概率；
$q_{j\vert i}$ ：输出的条件概率；
$q_{ij}$ ：输出的联合概率；

SNE算法介绍

在SNE算法中使用高斯分布作为输入的条件分布，其条件概率定义如下：
$\begin{equation} p_{j\vert i} = \frac{exp(-\parallel x_j - x_i\parallel^2 / (2\sigma_i^2))}{\sum_{k} exp(-\parallel x_k - x_i\parallel^2 / (2\sigma_i^2))}\quad i\ne j \tag{1} \end{equation}$
$p_{i\vert i}$ 定义成0，在 $(1)$ 的公式中，两个向量越相似（欧式距离越近）则条件概率值越大。

SNE算法中同样对低维分布进行了定义，同样选择高斯分布作为其分布，不同的是由于低维分布是经过训练得出的，我们可以事先规定其方差为1使训练过程中拟合到方差为1的结果，这样能够一定程度上简化计算，其条件概率定义如下：
$q_{j\vert i} = \frac{exp(-\parallel y_j - y_i\parallel^2)}{\sum_{k} exp(-\parallel y_k - y_i\parallel^2)}\quad i\ne j$
同样地，我们将 $q_{i\vert i}$ 定义成0。

SNE需要做的就是尽可能是这两个分布相似以达到相似的数据映射到低维时依然相似，而K-L散度可以描述两个分布的相似程度，因此SNE通过K-L散度作为其损失函数进行训练：
$C=\sum_i\sum_j p_{j\vert i} log_2 \frac{p_{j\vert i}}{q_{j\vert i}}$