使用PCA可视化数据

最新推荐文章于 2023-04-06 10:45:19 发布

磐创 AI

最新推荐文章于 2023-04-06 10:45:19 发布

阅读量802

点赞数

本文链接：https://blog.csdn.net/fendouaini/article/details/108655595

版权

主成分分析（PCA）是一种降维工具，有助于理解数据集的分类能力。通过对乳腺癌数据集的应用，展示了PCA如何通过构造主成分来区分恶性与良性肿瘤。PCA不仅简化了数据的可视化，还揭示了不同特征组合的预测效果，如细胞对称性和平滑度对肿瘤类型的区分能力。PCA的使用可以辅助特征选择和模型性能评估，但在模型构建前应结合其他数据探索方法共同使用。

摘要由CSDN通过智能技术生成

作者|Conor O'Sullivan 编译|VK 来源|Towards Data Science

主成分分析（PCA）是一个很好的工具，可以用来降低特征空间的维数。PCA的显著优点是它能产生不相关的特征，并能提高模型的性能。

它可以帮助你深入了解数据的分类能力。在本文中，我将带你了解如何使用PCA。将提供Python代码，完整的项目可以在GitHub链接：https://github.com/conorosully/medium-articles。

什么是PCA

我们先复习一下这个理论。如果你想确切了解PCA是如何工作的，我们不会详细介绍，网上有大量学习资源。

PCA用于减少用于训练模型的特征的数量。它通过从多个特征构造所谓的主成分（PC）来实现这一点。

PC的构造方式使得PC1方向在最大变化上尽可能地解释了你的特征。然后PC2在最大变化上尽可能地解释剩余特征，等等……PC1和PC2通常可以解释总体特征变化中的很大一部分。

另一种思考方法是，前两个PC可以很好地概括大部分特征。这很重要，因为正如我们将看到的，它允许我们在二维平面上可视化数据的分类能力。

数据集

让我们来看看一个实际的例子。我们将使用PCA来探索乳腺癌数据集(http://archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+(diagnostic))，我们使用下面的代码导入该数据集。

import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer
cancer = load_

最低0.47元/天解锁文章

磐创 AI

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫