探索性数据分析 (EDA) 涉及两个基本步骤
-
数据分析 (数据预处理、清洗以及处理) 。
-
数据可视化 (使用不同类型的图来展示数据中的关系) 。
Pandas 是 Python 中最常用的数据分析库。Python 提供了大量用于数据可视化的库,Matplotlib 是最常用的,它提供了对绘图的完全控制,并使得绘图自定义变得容易。
但是,Matplotlib 缺少了对 Pandas 的支持。而 Seaborn 弥补了这一缺陷,它是建立在 Matplotlib 之上并与 Pandas 紧密集成的数据可视化库。
然而,Seaborn 虽然活干得漂亮,但是函数众多,让人不知道到底该怎么使用它们?不要怂,本文就是为了理清这点,让你快速掌握这款利器。
这篇文章主要涵盖如下内容,
-
Seaborn 中提供的不同的绘图类型。
-
Pandas 与 Seaborn 的集成如何实现以最少的代码绘制复杂的多维图?
-
如何在 Matplotlib 的辅助下自定义 Seaborn 绘图设置?
谁适合阅读这篇文章?
如果你具备 Matplotlib 和 Pandas 的基本知识,并且想探索一下 Seaborn,那么这篇文章正是不错的起点。
如果目前只掌握 Python,建议 翻阅文末相关文章,特别是 在掌握 Pandas 的基本使用之后再回到这里来或许会更好一些。
1 Matplotlib
尽管仅使用最简单的功能就可以完成许多任务,但是了解 Matplotlib 的基础非常重要,其原因有两个,
-
Seaborn 在底层使用 Matplotlib 绘图。
-
一些自定义项需要直接使用 Matplotlib。
这里对 Matplotlib 的基础作个简单概述。下图显示了 Matplotlib 窗口的各个要素。
需要了解的三个主要的类是图形 (Figure) ,图轴 (Axes) 以及坐标轴 (Axis) 。
-
图形 (Figure)<