全文共11345字,预计学习时长23分钟或更长
对于数据科学家来说,可视化工具比比皆是,因此,退一步去钻研每种可视化的类型及其适用的最佳案例就变得十分重要。为了发挥工具的最佳效用,有时可以考虑将其拟人化,甚至是将其变成卡通人物。
为了更好地理解图表,本文将其设计成了一系列卡通人物。
背景——数据集
这份有关谷物的数据集(https://www.kaggle.com/crawford/80-cereals)来自Kaggle,可用以制作各类图表。下载并保存该数据集,就可以运行以下绘图代码:
import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns df = pd.read_csv(‘./dataset/cereal.csv’) df[‘cal_per_cup’] = df.calories/df.cups # adding column to look at calorie content per cup rather than per serving
具体而言,绘图所需数据集中的每个样本都必须具有定量值或连续值(例如热量、纤维等非分类变量),制图的重点在于如何展示这些定量值。但同时一些分类变量(例如谷物位于顶部、中部还是底部货架)也必不可少,以便按照类别划分样本,并展示出每种样本的定量值。这一谷物数据集较好地融合了两者。
分布族
这是一个幸福的大家庭——箱形图、直方图、小提琴图、箱形图。虽然它们长相各异,但如果深入了解,你就会发现每种图形都以相似的方式揭示数据集的构成。
爸爸妈妈:箱形图Borat和Wanda
这个图表家庭会告诉你,用大量不同的数据样本测量同一个值的意义何在。无论数据集是正常或是已被扭曲,这些图表都能找出样本的中位数(三个孩子甚至可以判断样本是否为多模态分布)。
来认识一下箱形图Borat和Wanda(不过Wanda更喜欢别人叫她盒须图)。他们在一次蹦床聚会上相遇,Wanda在蹦床上弹跳时,突然丢失了一个异常值,这个异常值砸到了Borat头上。Borat把异常值还给了Wanda,然后他们就在一起了。
箱形图喜欢蹦床,所以它们总是出现在x轴的高处和低处。
Borat和Wanda志趣相投。Borat喜欢保持清爽的外表,表达总是简洁凝练。而Wanda则更喜欢打扮一些,