文章目录
1.t-SNE简介
t-SNE
(t-distributed Stochastic Neighbor Embedding) 是一种非线性降维技术
,常用于在二维
或三维空间
中可视化高维数据
。它通过将相似的数据点在低维空间中尽量靠近
,而不相似的数据点则远离
,从而揭示数据的结构和模式。以下是 t-SNE 的一些关键特点和步骤:
t-SNE 的特点
- 保留局部结构:t-SNE 主要关注局部结构,确保高维空间中距离较近的点在低维空间中也保持相近。
- 适用于非线性数据:与
主成分分析 (PCA)
等线性降维
技术不同,t-SNE 可以处理非线性关系的数据
。 - 高计算复杂度:由于需要计算高维空间中所有点对的距离,并在低维空间中进行优化,
t-SNE 的计算量较大
,尤其是对于大规模数据集。
t-SNE 的工作原理
- 计算高维空间中的相似度:t-SNE 使用高斯分布来计算高维空间中数据点之间的相似度,即给定数据点 i 和 j,计算它们在高维空间中作为邻居的概率。
- 计算低维空间中的相似度:在低维空间中,t-SNE 使用学生 t 分布来计算数据点 i 和 j 的相似度,这种分