t-SNE和PCA进行数据降维和聚类的比较

最新推荐文章于 2023-04-09 17:22:23 发布

VIP文章 WuKai1207

最新推荐文章于 2023-04-09 17:22:23 发布

阅读量3.1k

点赞数 1

文章标签： python 机器学习人工智能

本文链接：https://blog.csdn.net/WuKai1207/article/details/126666056

版权

PCA（主成分分析）通过对原始数据特征的线性组合，在尽可能保留样本之间差异性（样本方差）的情况下，形成新的特征，是最常见的数据降维手段。

t-SNE（t-distributed stochastic neighbor embedding）是一种非线性的数据降维方法，它将数据点之间的空间距离转化为相似度的概率分布（高维空间中使用高斯分布，低维空间中使用t-分布），通过最小化高维空间和低维空间概率分布的KL散度，获得数据在低维空间中的近似。通常用于高维数据的可视化。

本文分别使用t-SNE和PCA对mnist图像数据进行降维处理，再对降维后的数据进行KMeans聚类，对比其降维效果的差异。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits

data, labels = load_digits(return_X_y=True)    # 加载mnist数据
(n_samples, n_features), n_digits = data.shape, np.unique(labels).size


fig, axs = plt.subplots(nrows=10, ncols=10, figsize=(6, 6))
for idx, ax in enumerate(axs.ravel()):
    ax.imshow(data[idx].reshape((8, 8)), cmap=plt.cm.binary)
    ax.axis("off")
_ = fig.suptitle("A selection from the 64-dimensional digits dataset"

最低0.47元/天解锁文章

WuKai1207

关注

1
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
t-SNE和PCA进行数据降维和聚类的比较

t-SNE（t-distributed stochastic neighbor embedding）是一种非线性的数据降维方法，它将数据点之间的空间距离转化为相似度的概率分布（高维空间中使用高斯分布，低维空间中使用t-分布），通过最小化高维空间和低维空间概率分布的KL散度，获得数据在低维空间中的近似。可以看到经t-SNE降维后的数据，实现非常好的分离。PCA（主成分分析）通过对原始数据特征的线性组合，在尽可能保留样本之间差异性（样本方差）的情况下，形成新的特征，是最常见的数据降维手段。
复制链接

扫一扫