python图像数据是几维数据_在Python中使用PCA和t-SNE可视化高维数据集

最新推荐文章于 2024-07-17 06:30:00 发布

weixin_39922374

最新推荐文章于 2024-07-17 06:30:00 发布

阅读量336

点赞数

文章标签： python图像数据是几维数据

原标题：在Python中使用PCA和t-SNE可视化高维数据集

【IT168 方案】任何与数据相关的挑战的第一步都是从研究数据本身开始的。例如，可以通过查看某些变量的分布或查看变量之间的潜在相关性来研究。

目前的问题是,很多数据集都有大量的变量。换句话说，它们是多维度的，数据沿着这些维度分布。这样的话，可视化地研究数据会变得很有挑战性，大多数时候甚至不可能手工完成。但是，研究数据时，可视化数据是非常重要的。因此，理解如何可视化高维数据集是关键，这可以使用降维技术来实现。这篇文章将重点介绍两种降维技术技术：PCA和t-SNE。

关于这两项技术，后面会详细介绍，现在，让我们先得到一些高维数据。

MNIST数据集

在本文中，我们将使用MNIST数据集。无需手动下载数据集，因为我们可以通过使用Scikit Learn获取数据集。

首先把所有的库都准备好。

然后开始加载数据

把矩阵和向量转换为Pandas数据框，这与R语言中使用的数据框非常相似，使我们更容易进行绘图。

为了避免在计算中使用全部70000个数据，所以我们将采用数据的随机子集。随机化很重要，因为数据集会按其标签排序，即前7000左右是零）。为了确保随机化，创建数字0-69999的随机排列，以便稍后为计算和数据可视化进行选择。

我们现在有了数据框和随机向量。先来检查一下这些数字，并为此生成30个随机图像。

现在可以开始考虑如何区分0和1、2等等。例如，如果您是邮局，这样的算法可以帮助您使用机器读取和分类手写信封，而不是让人类这样做。显然，现在我们有非常先进的方法来做到这一点，但是这个数据集仍然提供了一个非常好的例子，可以让我们看到降维的具体方法以及它们的工作情况。

这些图像基本上都是28×28像素，因此总共有784个“维度”，每个维度包含一个特定像素的值。

我们要做的是大幅减少维度数量，同时尽可能多地保留信息中的“变化”。接下来，让我们了解什么是主成分分析。

使用PCA降维

PCA是一种减少数据集维数的同时保留大部分信息的技术。它使用一些维度之间的相关性，并试图通过提供最少的变量，并尽可能地保留关于原始数据分布的最多信息。这个过程并不是简单的猜测，而是使用称为数据矩阵的特征值和特征向量进行计算。协方差矩阵的特征向量能够体现数据变化的主要方向，并且是数据集变化的最主要方向。

我们将使用PCA的Scikit-Learn实现这个计算过程。

首先从二维图和三维图开始，从原始的784维度生成前三个主要组成部分，并看到总数据集中有多少变化。