泰坦尼克号数据集_马赛克图如何用层级数据展现泰坦尼克号幸存者分布

8c483ccdff01098af43a7d232ef498ba.png

马赛克图,跟我们平常将的图片“马赛克”可不一样。它是从柱状图发展过来的,柱状图的每根柱子都是均匀等宽的,而马赛克图从一开始的柱子分割已经按照分类数据的数值,按比例分割。

还记得泰坦尼克号沉船事件吗?OriginLab用马赛克图,把幸存下来的人的情况可视化。今天的图表家族,带你看看这个马赛克图告诉我们的:当年幸存者状况。

想知道应该如何阅读这张图?看完接下来的内容, 你就明白了~

b048c0b1eea417cc9f339ddb097092eb.png
泰坦尼克号沉船事件幸存情况马赛克图 www.originlab.com

马赛克图原来是柱状图的近亲

马赛克图(Mosaic Plot),也叫做不等宽柱状图 (Marimekko Chart),是一个展示不同分类数据的多变量数据大小的图表。根据不同变量,矩形方块会被填充不同的颜色,以区分数据。

d5a099eda5ae7bcb1c401b4d1c0697cb.png
马赛克图

马赛克图在根据不同的分类数据,把矩形分割成柱子时,就已经按照分类数据的数值比例进行分割。像下图,分类数据为A、B,其中A类占了60%,B类占了40%。因此A类和B类的柱子宽度是不同的。根据变量——紫色和蓝色,马赛克图对A类的柱子进行再分割,变量的数值体现在柱高上。因此,“紫色(30%)”的含义是,在占总体60%的A类中,紫色占A类的30%。

cd197614bbd98c285bcb7f69cf98dfef.png

可见,马赛克图和堆叠柱状图、矩形树图的数据一样,带有层级关系。如果数据可以用列联表进行整理,这样的数据一般都可以考虑使用马赛克图。

cedd4f0560dd143d24b1a800c43fa37e.png
列联表 Mosaics for Contingency Tables

a1b0a45825250c89d7303afb87053645.png
大不列颠和爱尔兰移民情况的马赛克图 Mosaics for Contingency Tables

马赛克图的主要缺点在于难以阅读和理解。当含有较多分类数据和变量的时候,我们也很难准确地对每个矩形的宽、高进行比较。所以,马赛克图较为适合提供数据概览

马赛克图的历史可追溯到174年前

马赛克图最早是从柱状图演变过来的。在1844年,Charles Joseph Minard在“Tableau-graphique”中,开发了一种带比例的、分割的柱状图,来展示法国沿运河路线的商业交通运输。

ecc56f6ff87b12716f0d4d04906dabed.png
A Brief History of the Mosaic Display

后来,Minard进一步用不等宽的柱状图,可视化沿运河中心,商品运输的价格。根据商品的种类,分成不同的柱子。在柱子内,再根据运输距离划分。每个小矩形的面积就代表了某种商品运输的总价格。

d33c2efae68f9d833a455a0b2157314d.png
A Brief History of the Mosaic Display

此后,这种带比例分割的、不等宽高的柱状图不断发展,也有被用在与地图的结合上。

62a51fca1762956db74aba524126b746.png
A Brief History of the Mosaic Display

后来,Michael Friendly对马赛克图的历史进行了梳理,并发展和完善了马赛克图。在下面的马赛克图中,不同设计的矩形代表了不同的数值。左边的马赛克图可视化了头发颜色及眼睛颜色的关系,右边的则加上性别的变量。

76be7ada713950b7e0a6e4c187ba6b95.png
头发、眼睛颜色与性别的关系 A Brief History of the Mosaic Display

可视化爱好者Stephenking就帮我们拆解了Friendly,从这个拆分过程,我们很容易理解马赛克图的作图原理。

2a0b0fe9447ddfa295c97d026230fb24.png
不均匀马赛克图的拆分,Stephenking

一个整的矩形代表了Friendly所调查的113个人,根据不同分类,即不同发色的人数,把一个矩形拆分成等高不等宽的若干小矩形。再针对同一分类里的不同变量,即眼睛颜色,再把长方形拆分成等宽不等高的若干小矩形。最左上角的小矩形就代表了黑头发、绿眼睛的人,在所有人中的比例。

马赛克图的运用还不少

虽然相较于柱状图、堆叠柱状图等柱状图表,马赛克图的运用比较少见,但是,一位可视化爱好者,利用卫报(the Guardian)搜集的“生命终结前听的1000首歌”(1000 songs to hear before you die)数据集,设计了一个马赛克图。在年代的分类数据下,每根柱子被分成了不同的音乐类型。

13f2223089531b30d717f10e92f95806.png
1000 songs to hear before you die www.stubbornmule.net

还记得一开始讲的泰坦尼克号沉船事件吗?OriginLab把幸存下来的人,按照船员以及在不同楼层的乘客人数比例,把矩形分成不同条形。在同一类人中,再根据小孩、成年女性、成年男性进行细分。可以看到,在幸存者中,大部分人都是船员,还有一等舱的乘客。

b048c0b1eea417cc9f339ddb097092eb.png
泰坦尼克号沉船事件幸存情况马赛克图 www.originlab.com

事实上,除了OriginLab制作的马赛克图之外,下图也通过马赛克图展现了泰坦尼克号的幸存情况,与前者不同, 下图不只呈现了幸存者的分布情况,而且展现了泰坦尼克号上所有乘客以及幸存者的分布情况。

046c9ad65205c54f1fff32f2c19c86e3.png

在上图中,设计师首先通过性别对乘客进行了划分:底部为女性,上面对应为男性,可以看出泰坦尼克号上约1/4为女性,3/4为男性;随后引入了“不同的舱位“这个变量,从左至右依次为一等舱、二等舱、三等舱和船员;最后,是否幸存这一变量用不同的颜色表示:浅灰色为幸存、深灰色为未能幸存。

明白了这个逻辑后,这个图就非常容易看懂了:头等舱女性具有最高的生存概率,总体而言约有1/3的乘客幸存(图中灰色区域所占的比例)。

从泰坦尼克号幸存者的两个可视化案例可以看出:双层级的数据也能用马赛克图

什么是双层级?简单来说,就是可以把数据进行两次细分的,例如申请入学的所有学生中,按照不同成绩等级-统一成绩的不同性别-同一性别的不同录取情况。

根据加州大学伯克利分校1973年的入学数据,这个马赛克图把入学学生的成绩分成了A-F六个等级,根据每个等级的人数分割了不同柱宽的柱子。每个等级中,又细分成女性(偏黄的柱子)和男性(偏绿的柱子)。在同一性别中,再分成了被录取(颜色较深的矩形)和被拒绝(颜色较浅的矩形)。我们可以看到,不是成绩好就能被录取的,而且同一成绩不同性别的录取比例也是不一样的。

65f77f1d393036dc22c7e534b43fb0e1.png
加州大学伯克利分校1973年的入学情况 www.drawingwithnumbers.artisart.org

了解了马赛克图之后,除了能在日常看图中更加容易理解数据信息,还能拓宽可视化可用的图表类型,遇上这些实用帖,就赶紧马一下,以后还能慢慢学哟!

明天(2月26日)镝数2.2就要上新啦!全新功能和精美界面,给你非凡的制图体验,还有找数据、用场景等功能,超多活动,超多惊喜,就等你来!

和小镝一起加入流浪镝数计划吧

点击这里免费试用

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值