简介+原理+绘制,详解 Python「瀑布图」的整个制作流程!

cb338e3800a678b55d1fb6c9f1dea9e0.gif

作者|黄伟呢

来源|数据分析与统计学之美

简介

瀑布图,由麦肯锡顾问公司所独创的图表类型,因为形似瀑布流水,所以被大家称之为瀑布图(Waterfall Plot),在企业经营分析、财务分析中使用较多,用以表示企业成本的构成、变化等情况。

瀑布图本质:堆积柱形图的绘制。

66de08ed5823a2131f00a98a894a331e.png

瀑布图的绘图原理

那么,如何用Python绘制这样一个瀑布图呢?

很多人不知道如何绘制瀑布图,是由于对瀑布图的绘图原理,不够清楚。

因此,这里先来讲述一下瀑布图的绘图原理。

69c62f4110b1b38897df79c704a2ca6f.png

有这样一份原始数据:

79c6fdfc96629a3993fe19857397066c.png

从最开始的销售,经过退货、信用费、回扣、滞纳金、运费,这一系列的操作后,最后肯定还有一个净总量。因此,我们需要添加这样一行。

97614006649609a989042369626bd9d7.png

注意:在瀑布图中,最初的“销售”与最后的“净总量”,都是以坐标轴原点为起点。

瀑布图本身就是要体现这个增减变动过程。因此,这里涉及到一个占位,如图所示:

15e119d87ff770751531e0fa7fea24f6.png

除了首尾两个字段,都是以原点起步的,中间过程要体现这个波动过程。我特意用不同颜色,为大家圈出了这个占位的高度,但是在瀑布图中,我们并不显示出来。

文章最开始就说了,瀑布图的本质其实就是堆积的柱形图。

为了构造这个占位数据,我们需要对数据进行一定的处理。让首尾字段的数据都为0,中间部分,表示占位高度。

370849f187f08cc40c1f116bf1faa036.png

最后,我们利用原始数据与占位高度数据,做一个堆叠的柱形图,就可以展示出这个瀑布效果了。

aa96fade766cadc8664ace1dcfdb4e5d.png

瀑布图的绘图步骤

现在我就为大家讲解详细的步骤。

1. 导入相关库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
2.  创建数据
index = ['销售','退货','信用费','回扣','滞纳金','运费']
data = {'金额': [350000,-30000,-7500,-25000,95000,-7000]}
df = pd.DataFrame(data=data,index=index)
df

结果如下:

4fd44afa24e0928ccd29f4d0a85a1521.png

瀑布图的最大问题就是弄清楚,底部堆积的条形图应该是什么。

首先,先求累积和。

df["金额"].cumsum()

结果如下:

7fcd80784b283bcc6170e493c92bf43b.png

原理部分,已经为大家讲述过,瀑布图 = 原始数据 + 占位数据,堆积而成。

因此,对于占位数据,它的首位数据,我们必须将其变为0.

total = df.sum()["金额"]
df.loc["净总量"] = total
blank = df["金额"].cumsum().shift(1).fillna(0)
blank.loc["净总量"] = total
blank.loc["净总量"] = 0

结果如下

317f8ccc469fec786c919bf41894299e.png

其实,一行Python代码,就可以完成瀑布图的绘制。

df.plot(kind='bar', stacked=True, bottom=blank,legend=None, title="瀑布")

plt.xticks(rotation=60)
plt.ylim(-100000,400000)
plt.grid()

结果如下:

7b0c76e6203ecd60a6f24d77ff935675.png

其实,到这里瀑布图的绘制已经结束了。但是,为了是这个增减变动更加清楚,我们可以添加一个阶梯。

# 多添加一个绘图代码
step = blank.reset_index(drop=True).repeat(3).shift(-1)
step[1::3] = np.nan

my_plot = df.plot(kind='bar', stacked=True, bottom=blank,legend=None, title="瀑布图")
my_plot.plot(step.index, step.values,'k')
plt.xticks(rotation=60)
plt.ylim(-100000,400000)
plt.grid()

结果如下:

da5e107b71f462d302e79f8f63c7d24c.png

值得注意的问题

在下面这行代码中,有一个bottom参数。

df.plot(kind='bar', stacked=True, bottom=blank,legend=None, title="瀑布图")

其实该参数,表示的是堆积柱形图的起始点,如果数据为正,则柱子在该起始点之上,如果数据为负,则柱子在该起始点之下。

我们为大家举例说明:

import numpy as np
import matplotlib.pyplot as plt

x = np.arange(5)
a = np.array([10, 15, 20, 15, 5])
b = np.array([5, -20, 7, -25, 9])

plt.bar(x, b, bottom=a, label='b')
plt.grid()
plt.show()

结果如下:

da7c51acdde9d4f272139be8e15aa529.png

观察上图,我为大家标注好了起始点,如果数据为正,柱子都是朝上,否则就朝下。

e37ab1c6a0abc0b5491afc88c3b87876.gif

c24e3efa489aff07a23eec77b4a6d669.png

资讯

AI 将有自我视觉?Facebook正在研究新系统

资讯

微软、英伟达联手推出最大语言模型

大赛

API 大赛决赛名单出炉!

技术

ST-GCN 实现人体姿态行为分类

b21a6b154fbdc1033a3531f02dbb30a8.png

分享

51ee967103d8bdad0b303299c025a406.png

点收藏

88f7e49b158f4668993f21d16184ff9d.png

点点赞

56b385c50d1142990daad304aa36b066.png

点在看

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值