数据图表与分析图_堆积图表界的翘楚!河流图如何搞定“巨量”数据

31a6df1cd968faa8c6d77836de0aeb26.png

继旭日图、漏斗图、饼图之后,我们又迎来一个 “象形”图表——河流图。虽然河流图是从堆积面积图演变而来,读图的原理也相同,但是在面对较大体量的数据时,河流图还是略胜一筹!

从折线图到面积图再到河流图

82351665b9164ca5307f29c32d0afb1e.png
折线图与面积图

折线图是我们在数据可视化过程中常见的图表,当我们把折线与轴的围起的区域涂上颜色,变成了面积图,这时候两种图表的意义就不一样了。当把单色的面积变为多色的面积,就出现了不同类目的比较意义,且区别于条形图,具有连续比较的意义。继续往下进化,就出现了河流图,那么什么是河流图呢?

河流图(Streamgraph),有时候也叫做“主题河流图”(ThemeRiver),是堆积面积图的一种变形,通过“流动”的形状来展示不同类别的数据随时间的变化情况。但不同于堆积面积图,河流图并不是将数据描绘在一个固定的、笔直的轴上(堆积图的基准线就是x轴),而是将数据分散到一个变化的中心基准线上(该基准线不一定是笔直的)。

4eb5a2d9f2dc3293e161ea6c56848e94.png
河流图的组成

由河流图的组成图可以看出,河流图用颜色区分不同的类别,或每个类别的附加定量,流向则与表示时间的X轴平行。每个类别的对应数值则是通过 “河流”的宽度展示出来。每个类别的数值变化就会形同一条粗细不一的小河,汇集、扭结在一起,河流图也因此而得名。

以下图为例,作品《音曲繁美》就采用了这种河流图,它每一条的宽窄代表了音乐在特定年代流行的程度,用不同的颜色去区分不同的音乐,图表最后形成水流状的样子。

67463400360d12b664a01f731bded2dc.png
音曲繁美

既然河流图是堆积面积图的变形,那么与堆积面积图相比,河流图具有哪些不同呢?

在我们之前的推送中,也和大家分享过堆积面积图的一些特点,比如不建议堆叠面积图中包含过多数据系列,最好不要多于7个,以免数据难以辨识。然而,较于堆积面积图,河流图在展示多类别及波动幅度大的数据时,可读性更强,外表也更美观。

这条历史的大河才刚成年

2008年2月,《纽约时报》发布了一个最典型、最著名的河流图的例子《电影的衰退和流动:过去20年的电影票房收入》,描述了从1986年1月到2008年2月期间,所有电影的上映时间以及期间的周票房变化。在这个河流图中,流形状的宽度代表了某部电影的周票房,流形状的起始是由电影的上映时间决定的。颜色由电影的总票房决定,票房就是电影的“附加定量”,颜色越深代表了电影最终票房越高。

f9aece5da99ad9693dbf85bd0676f17d.png
电影的衰退和流动:过去20年的电影票房收入

我们可以看到,从2007年4月中旬到7月,是高票房电影集中上映的时间,《蜘蛛侠3》、《加勒比海盗:世界的尽头》、《史瑞克3》等电影都获得非常高的票房收益,上映时间也几乎持续了3个月。但事实上,为了避免票房争夺,这段时间上映的电影数量不多,等到7月开始,大热电影档期结束,电影数量才多了起来。

8b7d505bce37ebdde97521aca69bae36.gif
河流图的交互使用

利用交互技术,我们可以把鼠标移动到某一个流形状上,突出显示它的具体信息。同时,《纽约时报》把这个河流图做得相当“长”,拖动滚动条可以发现,纵观20年,汇入电影历史长河的“小河”越来越多,电影的票房收入整体不停上涨。电影历史的长河越来越宽阔,特定时期的票房高涨也越来越明显。

此图的设计者之一Lee Byron,在河流图的设计上做了非常大的贡献。上面提及的可视化是建立在Lee以前的可视化成果之上。他在本科的时候,就设计了一个河流图,呈现用户在last.fm上听音乐的变化历史。

aee8a8df64020db93b705c81e95c6ffc.png
聆听历史

根据河流图的基本原理,每一个流形状代表了一个艺术家,流形状的宽度代表了用户在给定的时间内收听歌曲的次数。颜色的色调与艺术家的一首歌被听到的最早日期相关,深浅则与该艺术家被收听的总次数相关。用户可以通过自己的聆听河流图,发现自己所听的歌曲与当时的心情,或者是特殊事件的关联,人生轨迹仿佛被音乐描绘出来。

实际上,这种多层叠加数据的可视化方法,最早出现在2000年Susan Havre, Beth Hetzler和Lucy Nowell的文章《ThemeRiver: In Search of Trends, Patterns, and Relationships》中。

e3b388251956cfe60a2d078ff4545252.png
菲德尔·卡斯特罗话语分析

这篇文章描述了一个名为“ThemeRiver”的互动系统的开发过程,其中使用一个文本分析引擎,对1959年11月到1961年6月期间,菲德尔·卡斯特罗的演讲、访谈以及其他文章的文本内容进行分析。河流图呈现出他在不同的时期使用的词语及次数。

这条“图表之河”将生生不息

面对诸如20年电影票房、听歌次数历史、文本分析等“巨量”数据,河流图表现得非常“从容”。

2008年,Jeff Clark对前100名Twitter用户的推文进行文本分析,发现最常用的单词除了“Scoble”(一位著名的美国博主)和“Obama”(前美国总统)之外,提及最多的是产品、技术或者技术事件的相关单词。这是因为顶级Twitter用户是走在前沿的“技术控”。

0d4f5066e55d45f3319f4ab962b7fe07.png
witter Topic Stream for Top Users

2011年,美国科技杂志《连线》的一篇文章运用河流图,描述了2010年9月8日至2010年9月15日期间,纽约市民拨打311市民服务专线所投诉的问题。噪音、路灯、街道设施是纽约市民最常反映的问题,特别是噪音的问题在睡眠时间里,投诉特别多。投诉的时间则集中在11:00-19:00的区间里。

0eda2cac8d14661a527154ae4e1cf6c5.png
What a Hundred Million Calls to 311 Reveal About New York

2016年,《纽约时报》用一张河流图,就把世界各国在奥运会上的获奖情况展示出来。我们不仅可以看出各国的获奖情况,还借此看出世界历史的重要节点,包括两次世界大战、中国第一次参加奥运会、美国和前苏联抵制参加奥运会等。

4489919e5ba66975f4eb7fb2b90457c1.png
A Visual History of Which Countries Have Dominated the Summer Olympics

河流图助你可视化大数据

堆积类图展示面对大量的数据时,通常可读性会降低,细小的堆积块难以观察。

11f10f3c35cd2890cd8b8d967d1482c2.png
百分比堆积面积图

河流图同样也会存在一些争议。就像上面提到的《纽约时报》关于电影历史票房的作品,有敏锐洞察力和读图能力的一部分人,能从图中看出电影的宏观层次季节性,看出哪些电影一直在“苟延残喘”。也有人赞美它运用颜色来区分高票房电影,以及凸显了电影上映数量变化。但也有一些人认为,河流图过于复杂和混乱,河流的形状会让人误会向上凸起的为正值,向下的为负值。

因此,在使用河流图的时候,我们要注意,除非使用交互技术,否则河流图无法精准地表达数据。但不可否认的是,在面对巨大数据量,且数值波动幅度大的情况下,河流图拥有优雅的视觉结构,能很好地吸引读者的注意力,同时凸显变化大的数据。

43bc52ac126851d673032d288c945db6.png

e5eb9c96bc80eb648975bf73e8d06c53.gif
镝数河流图

镝数的这个河流图则展示了1896-1932年,前五名国家在奥运会上奖牌数量的变化情况。同样的数据用在堆积面积图上,显然给我们解读数据带来更大的难度。

ae8ca2de0a837d8139727904c8939ba8.png
堆积面积图

对的数据遇上对的图表,哪里还用怕发现不了有趣的事?

镝数图表-免费在线数据可视化利器现在镝数还在免费赠送会员哦,海量精美图表模板等你来下载!

fabee969a7ffc28a065cce461cecdb9d.png

f906f82b1b46bd13098931ba992be4c5.png

点击这里免费试用:镝数图表

如果还想知道图表的相关知识,可参看往期图表家族:

镝次元数据:这个图表神器不简单!产品、运营、销售、HR都爱它!​zhuanlan.zhihu.com
bb51b41e2aeb436f335ca288e8298507.png
镝次元数据:不会数学统计没关系——5分钟教你轻松掌握箱线图​zhuanlan.zhihu.com
0b3fd9416495fede816f5806b3bd01b8.png
镝次元数据:“面积图”就是折线图吗?​zhuanlan.zhihu.com
04e61253b2bbe2dcfb123e4a7346ae25.png
镝次元数据:浪漫又自由,气泡图带给你的全新体验!​zhuanlan.zhihu.com
917f8a2bd431130a82bfe853a9790afc.png

或关注我的公众号:Dydata镝数(dydata), 后台留言告诉我。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值