选自TowardsDataScience
作者:William Koehrsen
编译:机器之心(almosthuman2014)
原文:https://towardsdatascience.com/visualizing-data-with-pair-plots-in-python-f228cf529166
本文,我们将介绍如何使用 Seaborn 可视化库(https://seaborn.pydata.org/)在 Python 中启动和运行散点图矩阵。我们将看到如何为快速检查数据而创建默认散点图矩阵,以及如何为了更深入的分析定制可视化方案。
代码地址(点击阅读原文即可访问):https://github.com/WillKoehrsen/Data-Analysis/blob/master/pairplots/Pair%20Plots.ipynb
我们将探索一个现实世界数据集,它由国家级的社会经济数据组成,这些数据都是 Gapminder 收集的。
Seaborn 中的散点图矩阵
我们需要先了解一下数据,以便开始后续的进展。我们可以 pandas 数据帧的形式加载这些社会经济数据,然后我们会看到下面这些列:
![56b75418476517258fcb69de091faa8e.png](https://img-blog.csdnimg.cn/img_convert/56b75418476517258fcb69de091faa8e.png)
每一行代表一个国家一年的观察数据,列代表变量(这种格式的数据被称作整洁数据,tidy data),其中有两个类别列(国家和洲)和四个数值列。这些列简单易懂:life_exp 是出生时的预期寿命,以年为单位,popis 是人口数量,gdp_per_cap 是人均 GDP(以国际元)为单位。
seaborn 中的默认散点图矩阵仅仅画出数值列,尽管我们随后也会使用类别变量来着色。创建默认的散点图矩阵很简单:我们加载 seaborn 库,然后调用 pairplot 函数,向它传递我们的数据帧即可:
# Seaborn visualization library
import seaborn as sns
# Create the default pairplot
sns.pairplot(df)