t-SNE: 基于信号分离的降维技术详解

最新推荐文章于 2025-05-06 15:53:27 发布

DuHz

最新推荐文章于 2025-05-06 15:53:27 发布

阅读量718

点赞数 17

文章标签：算法机器学习人工智能信号处理信息与通信

本文链接：https://blog.csdn.net/qq_44648285/article/details/147705399

版权

t-SNE: 基于信号分离的降维技术详解

引言

t-SNE（t-distributed Stochastic Neighbor Embedding）是一种广泛应用于高维数据可视化的非线性降维技术，由Laurens van der Maaten和Geoffrey Hinton于2008年提出。与传统的降维方法相比，t-SNE特别擅长保留数据的局部结构，使得降维后的数据在低维空间中能够更好地展现高维数据的聚类特性。

t-SNE的核心思想

t-SNE的核心思想是将高维空间中点与点之间的相似度转换为条件概率，然后在低维空间中构建相似的概率分布，并通过最小化这两个分布之间的差异来优化低维表示。高维空间中，样本点 $x_i$ 和 $x_j$ 之间的相似度被定义为条件概率 $p_{j|i}$ ，表示如果以高斯分布选取邻居， $x_i$ 会选择 $x_j$ 作为邻居的概率：

$p_{j|i} = \frac{\exp(-\|x_i - x_j\|^2/2\sigma_i^2)}{\sum_{k \neq i}\exp(-\|x_i - x_k\|^2/2\sigma_i^2)}$

这里 $\sigma_i$ 是以点 $x_i$ 为中心的高斯分布的方差，由困惑度（perplexity）参数决定。为了简化计算，t-SNE将条件概率对称化：

$p_{ij} = \frac{p_{j|i} + p_{i|j}}{2N}$

其中 $N$ 是样本点的数量。

t-SNE与信号分离的联系

从信号分离的角度理解，t-SNE实际上在做一种特殊的信号分离任务。我们可以将高维数据视为混合的复杂信号，t-SNE试图从中分离出能够保留原始信号结构特征的低维表示。

1. 信号表示转换

高维数据中的信号特征被转换为概率分布 $P$ ，表示为：

$\{p_{ij}\}_{i,j=1}^N \in \mathbb{R}^{N \times N}$

而低维空间中，点 $y_i$ 和 $y_j$ 之间的相似度采用t分布定义为：

$q_{ij} = \frac{(1 + \|y_i - y_j\|^2)^{-1}}{\sum_{k \neq l}(1 + \|y_k - y_l\|^2)^{-1}}$

引入规范化常数 $Z$ 可以将上式写为：

$q_{ij} = \frac{(1 + \|y_i - y_j\|^2)^{-1}}{Z}, \quad Z = \sum_{k \neq l}(1 + \|y_k - y_l\|^2)^{-1}$

从自由度为 $\nu$ 的多变量t分布的角度看，上述公式可以看作是自由度 $\nu=1$ 的特例，其概率密度函数：

$q_{\nu}(x) = \frac{\Gamma(\frac{\nu+d}{2})}{\Gamma(\frac{\nu}{2})\nu^{\frac{d}{2}}\pi^{\frac{d}{2}}(1+\frac{\|x\|^2}{\nu})^{\frac{\nu+d}{2}}}$

其中 $d$ 是维度， $\Gamma$ 是伽马函数。当 $\nu=1$ 时，简化为柯西分布形式。

2. 信号分离目标

t-SNE的目标是最小化高维空间分布 $P$ 与低维空间分布 $Q$ 之间的KL散度（Kullback-Leibler divergence）：

$\sum_{i \neq j} p_{ij} \log \frac{p_{ij}}{q_{ij}}$

展开可得：

$\sum_{i \neq j} p_{ij} \log p_{ij} - \sum_{i \neq j} p_{ij} \log q_{ij} = \text{const} - \sum_{i \neq j} p_{ij} \log \frac{(1 + \|y_i - y_j\|^2)^{-1}}{Z}$

$\text{const} - \sum_{i \neq j} p_{ij} \log(1 + \|y_i - y_j\|^2)^{-1} + \sum_{i \neq j} p_{ij} \log Z$

$\text{const} + \sum_{i \neq j} p_{ij} \log(1 + \|y_i - y_j\|^2) + \log Z\sum_{i \neq j} p_{ij}$

由于 $\sum_{i \neq j} p_{ij} = 1$ ，可以进一步简化为：

$\text{const} + \sum_{i \neq j} p_{ij} \log(1 + \|y_i - y_j\|^2) + \log Z$

从信息论角度，KL散度测量了两个分布之间的信息损失，优化t-SNE相当于在低维空间中重构出尽可能保留原始信息的分布。

t-SNE算法的数学推导

梯度推导

为了最小化KL散度，我们需要计算KL散度对低维空间坐标 $y_i$ 的梯度。首先对 $q_{ij}$ 求导：

$\frac{\partial q_{ij}}{\partial y_i} = \frac{\partial}{\partial y_i}\left[\frac{(1 + \|y_i - y_j\|^2)^{-1}}{Z}\right]$

应用商法则：

$\frac{\partial q_{ij}}{\partial y_i} = \frac{1}{Z}\frac{\partial}{\partial y_i}(1 + \|y_i - y_j\|^2)^{-1} - \frac{(1 + \|y_i - y_j\|^2)^{-1}}{Z^2}\frac{\partial Z}{\partial y_i}$

对第一项：

$\frac{\partial}{\partial y_i}(1 + \|y_i - y_j\|^2)^{-1} = -2(y_i - y_j)(1 + \|y_i - y_j\|^2)^{-2}$

对第二项：

$\frac{\partial Z}{\partial y_i} = \frac{\partial}{\partial y_i}\sum_{k \neq l}(1 + \|y_k - y_l\|^2)^{-1} = \sum_{k \neq l: k=i \text{ or } l=i}\frac{\partial}{\partial y_i}(1 + \|y_k - y_l\|^2)^{-1}$

$\frac{\partial Z}{\partial y_i} = \sum_{j \neq i}-2(y_i - y_j)(1 + \|y_i - y_j\|^2)^{-2}$

综合这两项，得到完整的梯度表达式：

$\frac{\partial C}{\partial y_i} = 4\sum_{j \neq i}(p_{ij} - q_{ij})(y_i - y_j)(1 + \|y_i - y_j\|^2)^{-1}$

这个梯度可以被解释为一系列的力。将上式改写成：

$\frac{\partial C}{\partial y_i} = 4\sum_{j \neq i}F_{ij}$

其中：

$F_{ij} = (p_{ij} - q_{ij})(y_i - y_j)(1 + \|y_i - y_j\|^2)^{-1}$

从物理角度解释， $F_{ij}$ 可以被视为点 $j$ 对点 $i$ 施加的力。如果高维空间中两点相似度高于低维空间（ $p_{ij} > q_{ij}$ ），则产生吸引力；反之则产生排斥力。为了更深入理解这个力的特性，我们可以将其分解为吸引力和排斥力两部分：

$F_{ij}^{\text{attr}} = p_{ij}(y_i - y_j)(1 + \|y_i - y_j\|^2)^{-1}$
$F_{ij}^{\text{rep}} = -q_{ij}(y_i - y_j)(1 + \|y_i - y_j\|^2)^{-1}$

总力为： $F_{ij} = F_{ij}^{\text{attr}} + F_{ij}^{\text{rep}}$

优化过程

t-SNE采用梯度下降法优化低维表示：

$y_i^{(t)} = y_i^{(t-1)} - \eta \frac{\partial C}{\partial y_i} + \alpha(t)(y_i^{(t-1)} - y_i^{(t-2)})$

其中 $\eta$ 是学习率， $\alpha(t)$ 是动量项。为了避免局部最优解，t-SNE通常会在早期迭代中添加一个比较大的动量项。梯度下降的收敛性可以通过莱斯利条件（Lyapunov function）来分析。定义能量函数：

$E (Y) = K L (P ∣∣ Q)$

则梯度下降的迭代可以表示为：

$Y^{(t+1)} = Y^{(t)} - \eta\nabla E(Y^{(t)}) + \alpha(t)(Y^{(t)} - Y^{(t-1)})$

对于适当选择的 $\eta$ 和 $\alpha(t)$ ，可以证明：

$E(Y^{(t+1)}) \leq E(Y^{(t)})$

即能量函数单调递减，保证了算法的收敛性。

困惑度参数的深入理解

困惑度（perplexity）是t-SNE中一个重要的超参数，定义为：

$\text{Perp}(P_i) = 2^{H(P_i)}$

其中 $H(P_i)$ 是以 $i$ 为条件的概率分布 $P_i = \{p_{j|i}\}$ 的Shannon熵：

$H(P_i) = -\sum_j p_{j|i} \log_2 p_{j|i}$

通过固定困惑度来求解 $\sigma_i$ 的过程实际上是一个熵最大化问题。给定困惑度 $\text{Perp}*$ ，求解方程：

$\text{Perp}(P_i) = \text{Perp}*$

这是一个关于 $\sigma_i$ 的非线性方程，通常使用二分搜索求解。将困惑度约束表示为拉格朗日方程：

$\mathcal{L}(\sigma_i, \lambda) = H(P_i) - \lambda(\text{Perp}(P_i) - \text{Perp}*)$

求解使得 $\frac{\partial \mathcal{L}}{\partial \sigma_i} = 0$ 的 $\sigma_i$ 值。困惑度的选择直接影响条件概率 $p_{j|i}$ 的分布形状。困惑度越大， $\sigma_i$ 越大，概率分布越平坦；困惑度越小， $\sigma_i$ 越小，概率分布越集中。

t-SNE与其他降维方法的数学比较

t-SNE与PCA的理论联系

主成分分析（PCA）是一种线性降维方法，它寻找数据方差最大的方向。其数学表达为：

$\max_W \text{Tr}(W^T X^T X W), \text{ s.t. } W^T W = I$

其中 $\in \mathbb{R}^{N \times D}$ 是数据矩阵， $\in \mathbb{R}^{D \times d}$ 是投影矩阵。从概率模型角度，PCA可以被看作是最大化似然估计问题：

$\max_{\mu, W, \sigma^2} \sum_{n=1}^N \log p(x_n | \mu, W, \sigma^2)$

其中 $\mu, W, \sigma^2) = \mathcal{N}(x | \mu, WW^T + \sigma^2I)$ 。相比之下，t-SNE通过最小化概率分布之间的KL散度来优化低维表示：

$\min_Y KL(P||Q) = \sum_{i \neq j} p_{ij} \log \frac{p_{ij}}{q_{ij}}$

可以证明，当 $p_{ij}$ 和 $q_{ij}$ 都由高斯分布定义时，t-SNE的目标函数与从概率角度解释的PCA有一定的数学联系。

t-SNE与SNE的理论区别

t-SNE是对原始SNE（Stochastic Neighbor Embedding）的改进。SNE在低维空间也使用高斯分布定义点之间的相似度：

$q_{j|i} = \frac{\exp(-\|y_i - y_j\|^2)}{\sum_{k \neq i}\exp(-\|y_i - y_k\|^2)}$

而t-SNE使用自由度为1的t分布：

$q_{ij} = \frac{(1 + \|y_i - y_j\|^2)^{-1}}{\sum_{k \neq l}(1 + \|y_k - y_l\|^2)^{-1}}$

t分布具有比高斯分布更厚的尾部，这意味着在处理中等距离和长距离时，t-SNE产生的排斥力更强，有助于缓解"拥挤问题"。从理论上分析，如果低维空间中的距离 $y_i - y_j\|$ 很大，则t分布给出的概率 $q_{ij} \propto \|y_i - y_j\|^{-2}$ ，而高斯分布给出的概率 $q_{j|i} \propto \exp(-\|y_i - y_j\|^2)$ ，两者的衰减速率有明显差异。

t-SNE的计算复杂度与优化

标准t-SNE的计算复杂度分析

标准t-SNE的计算复杂度主要来自三个部分：

计算高维概率 $p_{ij}$ ： $O(N^2D)$ ，其中 $N$ 是样本数， $D$ 是原始维度
计算低维概率 $q_{ij}$ ： $O(N^2d)$ ，其中 $d$ 是目标维度（通常 $\ll D$ ）
计算梯度： $O(N^2d)$

总计算复杂度为 $O(N^2D + TN^2d)$ ，其中 $T$ 是迭代次数。

Barnes-Hut t-SNE算法

Barnes-Hut t-SNE算法将计算复杂度从 $O(N^2)$ 降低到 $O(N\log N)$ 。它基于空间划分树结构（如四叉树或八叉树），对远距离的点群进行近似计算。算法的核心在于将低维空间划分为单元格，并计算单元格 $C$ 的中心质量点 $y_C$ 和总质量 $n_C$ ：

$y_C = \frac{1}{n_C}\sum_{i \in C} y_i, \quad n_C = |C|$

定义单元格 $C$ 的边长为 $r_C$ ，当点 $y_i$ 到单元格中心的距离 $y_i - y_C\|$ 与 $r_C$ 的比值小于阈值 $\theta$ 时，即 $\frac{r_C}{\|y_i - y_C\|} < \theta$ ，可以将单元格内所有点对 $y_i$ 的力近似为单个力：

$\sum_{j \in C} F_{ij} \approx n_C \cdot F_{iC}$

其中 $F_{iC}$ 是点 $i$ 与单元格 $C$ 中心之间的力。Barnes-Hut算法的时间复杂度为 $O(N\log N)$ ，这使得t-SNE能够处理更大规模的数据集。

分层t-SNE

对于超大规模数据，还可以采用分层t-SNE策略。基本思想是：

对数据进行聚类，得到 $K$ 个类别（ $\ll N$ ）
对每个类别的代表点运行t-SNE
将每个类别内的点映射到代表点的邻域

分层t-SNE的时间复杂度可以降低到 $O(N + K^2\log K)$ 。

数学上，我们定义聚类函数 $\{1,2,\ldots,N\} \rightarrow \{1,2,\ldots,K\}$ ，将每个点 $i$ 映射到其所属的类别 $c (i)$ 。对类别代表点集合 $\{r_1, r_2, \ldots, r_K\}$ 进行t-SNE降维，得到低维表示 $\{y_{r_1}, y_{r_2}, \ldots, y_{r_K}\}$ 。然后对于每个点 $i$ ，其低维表示可以近似为：

$y_i \approx y_{r_{c(i)}} + \Delta y_i$

其中 $\Delta y_i$ 是基于局部PCA的调整项。

t-SNE的实现步骤

计算高维空间的条件概率：对每个点 $x_i$ ，计算其与其他点 $x_j$ 的条件概率 $p_{j|i}$ 。

具体步骤包括：
- 对每个点 $i$ ，通过二分搜索确定 $\sigma_i$ ，使得条件概率分布 $P_i$ 的熵满足预设的困惑度
- 计算条件概率 $p_{j|i} = \frac{\exp(-\|x_i - x_j\|^2/2\sigma_i^2)}{\sum_{k \neq i}\exp(-\|x_i - x_k\|^2/2\sigma_i^2)}$
对条件概率进行对称化：计算 $p_{ij} = \frac{p_{j|i} + p_{i|j}}{2N}$ 。
随机初始化低维空间的点：通常从均值为0、小方差的高斯分布中随机采样。

初始化方法为： $y_i^{(0)} \sim \mathcal{N}(0, 10^{-4}I)$
迭代优化：使用梯度下降法最小化KL散度，更新低维点的坐标。

每次迭代中，低维点坐标的更新公式为：

$y_i^{(t)} = y_i^{(t-1)} - \eta \frac{\partial C}{\partial y_i} + \alpha(t)(y_i^{(t-1)} - y_i^{(t-2)})$

其中，学习率 $\eta$ 通常设置为100-1000之间，动量项 $\alpha(t)$ 在前几次迭代中设为0.5，之后设为0.8。迭代早期（通常前50次迭代）还会使用"早期夸张"技术，将 $p_{ij}$ 值放大4倍，以产生更明显的聚类结构。
收敛判定：当目标函数的变化率小于预设阈值 $\epsilon$ 或达到最大迭代次数时停止迭代：

$\frac{|C^{(t)} - C^{(t-1)}|}{|C^{(t-1)}|} < \epsilon$

t-SNE的局限性

尽管t-SNE在可视化高维数据方面表现出色，但它也有一些明显的局限性：

非保距性：t-SNE不保留原始数据中的距离信息，因此不能用于距离或密度的解释。具体而言，如果 $d_{ij} = \|x_i - x_j\|$ 是高维空间中的距离， $\hat{d}_{ij} = \|y_i - y_j\|$ 是低维空间中的距离，则t-SNE不保证 $d_{ij} \propto \hat{d}_{ij}$ 。
随机性：由于随机初始化和优化过程中的随机性，每次运行可能产生不同的结果。可以通过设置随机种子来部分缓解这个问题： $\text{seed} = \text{constant}$
计算复杂度高：即使使用优化的算法，处理大规模数据集时仍然计算开销大。渐进时间复杂度为： $O(N\log N)$ ，空间复杂度为： $O(N^2)$
超参数敏感：结果对困惑度等超参数的选择较为敏感。

困惑度的理论有效范围为： $\text{Perp} < N$

实践中常用范围： $\leq \text{Perp} \leq 50$
全局结构保持能力有限：t-SNE主要关注局部结构，可能无法很好地保留数据的全局拓扑结构。为了缓解这个问题，可以采用PCA+t-SNE的组合策略：先用PCA降到中等维度（如50维），再应用t-SNE。