Python实践：seaborn的散点图矩阵（Pairs Plots）可视化数据

最新推荐文章于 2024-08-13 21:41:22 发布

weixin_34413357

最新推荐文章于 2024-08-13 21:41:22 发布

阅读量3.7k

点赞数 5

文章标签： python 人工智能开发工具

原文链接：https://segmentfault.com/a/1190000014358311

版权

本文介绍如何使用Python的seaborn库创建散点图矩阵，用于探索性数据分析（EDA）。通过默认的pairplot和自定义的PairGrid，展示了如何可视化数据分布、变量间的关系，以及如何通过添加相关系数等自定义信息增强图表的洞察力。适用于快速理解数据集中的模式和趋势。

摘要由CSDN通过智能技术生成

如何快速创建强大的可视化探索性数据分析，这对于现在的商业社会来说，变得至关重要。今天我们就来，谈一谈如何使用python来进行数据的可视化！

一旦你有了一个很好的被清理过的数据集，下一步就是探索性数据分析（EDA）。EDA是确定数据可以告诉我们的过程，我们使用EDA来查找模式、关系或异常情况，以便指导我们后续的工作。然而在EDA中有很多的方法，但最有效的工具之一是对图（也称为散点图矩阵）。散点图矩阵让我们看到了两个变量之间的关系。散点图矩阵是识别后续分析趋势的好方法，幸运的是，它们很容易用Python实现！

在本文中，我们将通过使用seaborn可视化库在Python中进行对图的绘制和运行。我们将看到如何创建默认配对图以快速检查我们的数据，以及如何自定义可视化以获取更深入的洞察力。该项目的代码在GitHub上以Jupyter Notebook的形式提供。在这个项目中，我们将探索一个真实世界的数据集，由GapMinder收集的国家级社会经济数据组成。

Seaborn的散点图矩阵（Pairs Plots）

在开始之前，我们需要知道我们有什么数据。我们可以将社会经济数据用熊猫（Pandas）数据框加载并查看列：

每行数据代表一个国家在一年内的结果，列中包含变量（这种格式的数据称为整洁数据）。有2个分类专栏（国家和大陆）和4个数字专栏。这些专栏包括：life_exp是几年出生时的预期寿命，pop是人口，gdp_per_cap是以国际美元为单位的人均国内生产总值。

虽然后面我们将使用分类变量进行着色，但seaborn中的默认对图仅绘制了数字列。创建默认的散点图矩阵很简单：我们加载到seaborn库并调用pairplot函数，将它传递给我们的数据框：

# Seaborn visualization library
import seaborn as sns
# Create the default pairplot
sns.pairplot(df)

我仍然惊讶于一行简单的代码就可以完成我们整个需求！散点图矩阵建立在两个基本图形上，直方图和散点图。对角线上的直方图允许我们看到单个变量的分布，而上下三角形上的散点图显示了两个变量之间的关系。例如，第二行中最左

最低0.47元/天解锁文章

weixin_34413357

关注

5
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫