无监督学习 - t-分布邻域嵌入（t-Distributed Stochastic Neighbor Embedding，t-SNE）

最新推荐文章于 2024-07-17 06:30:00 发布

草明

最新推荐文章于 2024-07-17 06:30:00 发布

阅读量886

点赞数 18

分类专栏：数据结构与算法文章标签：学习 embedding 深度学习机器学习人工智能

本文链接：https://blog.csdn.net/galoiszhou/article/details/135616585

版权

数据结构与算法专栏收录该内容

86 篇文章 2 订阅

订阅专栏

什么是机器学习

t-分布邻域嵌入（t-Distributed Stochastic Neighbor Embedding，t-SNE）是一种非线性降维技术，用于将高维数据映射到低维空间，以便更好地可视化数据的结构。t-SNE主要用于聚类分析和可视化高维数据的相似性结构，特别是在探索复杂数据集时非常有用。

t-SNE的基本原理

相似度测量：对于高维数据中的每一对数据点，计算它们之间的相似度。通常使用高斯核函数来度量相似度。
学习相似度分布：使用 t-分布来学习数据点之间的相似度分布。t-分布具有厚尾特性，能够更好地保留相对较远数据点的相对距离。
在低维空间中映射：在低维空间中随机初始化每个数据点的投影，并通过梯度下降来优化这些点的位置，使得它们的相似度分布在高维和低维空间中尽量相似。

t-SNE的特点

保留局部结构： t-SNE更倾向于保留数据的局部结构，即相似的数据点在低维空间中仍然保持相近。
对异常值敏感： t-SNE对异常值（相对于高维空间）较为敏感，可能导致异常值在降维后的结果中占据较大空间。

Python中使用scikit-learn进行t-SNE的简单示例：

from sklearn.manifold import TSNE
import numpy as np
import matplotlib.pyplot as plt

# 生成随机高维数据集
np.random.seed(42)
data = np.random.rand(100, 10)

# 使用t-SNE进行降维
tsne = TSNE(n_components=2, perplexity=30, random_state=42)
embedded_data = tsne.fit_transform(data)

# 绘制t-SNE降维后的结果
plt.scatter(embedded_data[:, 0], embedded_data[:, 1])
plt.title('t-SNE Visualization')
plt.xlabel('特征1')
plt.ylabel('特征2')
plt.show()

这个例子中，t-SNE被用于将高维数据映射到二维空间，以便进行可视化。在实际应用中，可以根据数据集的特点调整t-SNE的参数，如perplexity等。需要注意的是，t-SNE的计算开销较大，特别是在处理大规模数据时，可能需要一些时间。

草明

关注

18
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
无监督学习 - t-分布邻域嵌入（t-Distributed Stochastic Neighbor Embedding，t-SNE）

（t-Distributed Stochastic Neighbor Embedding，t-SNE）是一种非线性降维技术，用于将高维数据映射到低维空间，以便更好地可视化数据的结构。t-SNE主要用于聚类分析和可视化高维数据的相似性结构，特别是在探索复杂数据集时非常有用。
复制链接

扫一扫

专栏目录