t-SNE（t-distributed Stochastic Neighbor Embedding，t分布随机邻居嵌入）非线性降维

爱看烟花的码农

已于 2025-04-29 17:08:58 修改

阅读量527

点赞数 29

分类专栏： ML 文章标签： embedding 信息可视化

于 2025-04-26 19:06:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Rhett_Butler0922/article/details/147541002

版权

一、t-SNE的背景与目标

1. 什么是降维？

降维是将高维数据（如图像、文本嵌入等）映射到低维空间（如二维或三维），以便于分析、可视化或降低计算复杂度。常见的降维方法包括：

线性方法：如主成分分析（PCA）、线性判别分析（LDA）。
非线性方法：如t-SNE、UMAP、Isomap。

t-SNE特别适合数据可视化，因为它能捕捉数据的局部结构（即高维空间中相似点的邻近关系），并在低维空间中尽可能保留这些关系。

2. t-SNE的目标

t-SNE的目标是将高维空间中的数据点映射到低维空间，使得：

局部结构保留：高维空间中相邻的点在低维空间中仍保持接近。
全局结构次要：t-SNE更关注局部邻居关系，可能会牺牲全局结构（如不同簇之间的相对距离）。
可视化友好：生成二维或三维的可视化结果，直观展示数据的分布和簇结构。

3. t-SNE与PCA的区别

PCA：线性方法，基于方差最大化，适合全局结构保留，但对非线性结构无能为力。
t-SNE：非线性方法，专注于局部结构保留，适合复杂数据的可视化，但不适合直接用于特征提取或回归任务。

二、t-SNE的数学原理

t-SNE的核心思想是将高维空间中点之间的相似性（以概率形式表示）转化为低维空间中的相似性，并通过优化使两者的分布尽可能接近。以下是详细的数学推导。

1. 高维空间中的相似性

t-SNE首先在高维空间中计算数据点之间的相似性，定义为条件概率。

假设有 $n$ 个高维数据点 $\{x_1, x_2, \dots, x_n\}$ ，每个点的维度为 $D$ 。t-SNE的目标是计算点 $x_i$ 和 $x_j$ 的相似性，表示为条件概率 $p_{j|i}$ ：
$p_{j|i} = \frac{\exp\left(-\|x_i - x_j\|^2 / 2\sigma_i^2\right)}{\sum_{k \neq i} \exp\left(-\|x_i - x_k\|^2 / 2\sigma_i^2\right)}$

含义： $p_{j|i}$ 表示在高维空间中，点 $x_j$ 被选为 $x_i$ 的邻居的概率。
高斯核：相似性基于高斯分布，距离越近，概率越高。
$\sigma_i$ ：每个点 $x_i$

最低0.47元/天解锁文章

爱看烟花的码农

博客等级

码龄4年

225
原创

2615
点赞

2419
收藏

888
粉丝

关注

私信

热门文章

分类专栏

最新评论

Pytorch中的Dataset和DataLoader
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619694990。
洛谷题单【入门3】循环结构
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性。
洛谷题单【入门2】分支结构
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性。
解决Pycharm找不到conda可执行文件
weixin_46927311: 哥们真牛X 无敌了
(打卡)793. 高精度乘法
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

最新文章

2025

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

爱看烟花的码农 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。