箱形图、小提琴图、直方图……统统可以卡通化!

全文共11345字,预计学习时长23分钟或更长

对于数据科学家来说,可视化工具比比皆是,因此,退一步去钻研每种可视化的类型及其适用的最佳案例就变得十分重要。为了发挥工具的最佳效用,有时可以考虑将其拟人化,甚至是将其变成卡通人物。

为了更好地理解图表,本文将其设计成了一系列卡通人物。

背景——数据集

这份有关谷物的数据集(https://www.kaggle.com/crawford/80-cereals)来自Kaggle,可用以制作各类图表。下载并保存该数据集,就可以运行以下绘图代码:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv(‘./dataset/cereal.csv’)
df[‘cal_per_cup’] = df.calories/df.cups # adding column to look at
 calorie content per cup rather than per serving

具体而言,绘图所需数据集中的每个样本都必须具有定量值或连续值(例如热量、纤维等非分类变量),制图的重点在于如何展示这些定量值。但同时一些分类变量(例如谷物位于顶部、中部还是底部货架)也必不可少,以便按照类别划分样本,并展示出每种样本的定量值。这一谷物数据集较好地融合了两者。

分布族

这是一个幸福的大家庭——箱形图、直方图、小提琴图、箱形图。虽然它们长相各异,但如果深入了解,你就会发现每种图形都以相似的方式揭示数据集的构成。

爸爸妈妈:箱形图Borat和Wanda

这个图表家庭会告诉你,用大量不同的数据样本测量同一个值的意义何在。无论数据集是正常或是已被扭曲,这些图表都能找出样本的中位数(三个孩子甚至可以判断样本是否为多模态分布)。

来认识一下箱形图Borat和Wanda(不过Wanda更喜欢别人叫她盒须图)。他们在一次蹦床聚会上相遇,Wanda在蹦床上弹跳时,突然丢失了一个异常值,这个异常值砸到了Borat头上。Borat把异常值还给了Wanda,然后他们就在一起了。

箱形图喜欢蹦床,所以它们总是出现在x轴的高处和低处。

Borat和Wanda志趣相投。Borat喜欢保持清爽的外表,表达总是简洁凝练。而Wanda则更喜欢打扮一些,

  • 4
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值