独家 | 可视化101:选取合适类型的可视化图表(上)

662d477d7849af9dc74113fc4e61d5c1.png

作者:Mariya Mansurova
翻译:陈之炎
校对:赵茹萱

本文约2500字,建议阅读16分钟
本文介绍了可视化案例。

e67a51966ac57bdb4daffb0f6daba72f.png

图像由DALL-E 3生成

分析师的主要目标是帮助团队根据数据做出正确的决策,它意味着分析师工作的主要结果不仅仅是获取数值或仪表盘,而是做出由数据驱动的合理决策。因此,分析师日常的主要工作是展示研究结果。

你是否曾经经历过在创建图表之前疏忽了一些明显的异常现象?这并非特例,几乎没有人能直接从枯燥的数字表中提取出见解,这就是为什么需要可视化来揭示数据中的见解。作为数据团队和产品团队之间的桥梁,数据分析师需要在可视化方面表现出色。

这就是为什么需要讨论数据可视化,并从框架开始,为实际用例选取最为合适的图表。

为什么需要可视化? 

仅仅使用汇总统计数据来查看数据听起来会很诱人,可以通过均值和方差来比较数据集,而无需直接看数据,然而,这可能会导致对数据的误解,从而做出错误的决策。   

其中最著名的例子之一是安斯库姆的四重奏曲( Anscombe’s quartet),它由统计学家Francis Anscombe创建,包含4个数据集,具有等价描述性统计数据:均值、方差和相关性。当查看数据时,可以直接看出数据集的不同之处。

1557ee6ca655d92f395871804c27acee.png

作者生成可视化图片

可以在这里找到更多例子(甚至是一只恐龙)。

这个示例清楚地显示了异常值是如何扭曲汇总统计数据的,以及为什么需要对数据进行可视化。

除了异常值之外,可视化也是呈现研究结果的最好方式,图形更易理解,并且能够整合大量的数据,可视化是分析师们需要关注的一个重要领域。

 起点是背景    

当着手将任务可视化时,首先需要定义主要目标或可视化的背景,创建图表有两个重要的用途:探索性分析和解释性分析。

探索性可视化是与数据的“私人对话”。对于这样的可视化,可能会较少关注设计和细节,例如,省略标题或不在图表中使用一致的配色方案,因为这些可视化只针对您的眼睛。

通常从一堆快图原型开始,在这种情况下,也仍然需要考虑合适的图表类型。正确的可视化图表可以快速找到洞察,而错误的可视化图表则可能隐匿线索。所以,需要做出明智的选择。

解释性的可视化是为了向观众传达信息,在这种情况下,需要更多地关注细节和背景以实现既定目标。

在研究解释性可视化时,通常会考虑以下问题来明确地定义目标:

  • 观众是谁?他们有什么背景?需要向他们解释什么信息?他们对什么感兴趣?

  • 我究竟想做些什么?观众可能会有什么担忧?可以向他们展示什么信息来实现既定目标?

  • 我是在展示图片吗?是否需要从另一个角度来看这个问题,以提供全部信息,让观众做出明智的决定?

此外,可视化的决策可能取决于媒体,你是要做一个现场演示,还是只是通过Slack或电子邮件将它发送出去。以下是几个示例:

  • 在现场演示时,可以减少对图表发表的评论,多谈论所有需要的背景,而在电子邮件中,最好提供全部细节。

  • 带有很多数字的表格并不能直接用于现场演示,因为带有许多信息的幻灯片可能会分散观众的注意力。与此同时,当观众可以按照自己的速度浏览所有数字时,书面交流是绝对可以的。

因此,在选择图表类型时,切记不应该孤立地考虑可视化,而是需要综合考虑到主要目标和受众。

感知可视化  

你知道有多少种不同类型的图表?或许你可以说出其中的一些:线性图,柱状图,Sankey 图,热图,方框图,气泡图,等等。但你有没有想过更深刻地看待可视化:构建块是什么,你的读者会如何看待它们?

威廉s·克利夫兰(William S. Cleveland)和罗伯特·麦吉尔(Robert McGill)1984年9月在《美国统计协会杂志》上的文章《图形感知:理论、实验和在图形方法中的应用》中研究了这个问题。本文主要关注视觉感知——解码图表中呈现信息的能力。作者定义了一组可视化的构建模块——视觉编码,例如,位置、长度、面积或颜色饱和度。毫无疑问,不同的视觉编码对于不同人的难度不尽相同。

作者试图通过实验假设和测试人们如何准确地从图中提取信息,目标是测试人们的判断是否有效。   

他们利用之前的心理学研究和实验,将不同的可视化构建块从最精确起进行排序,排序列表如下:

  • 位置,例如,散点图;

  • 长度,例如,条形图;

  • 方向或坡度,例如,线形图;

  • 角度,例如,饼状图,

  • 面积,例如,气泡图;

  • 体积3D图;

  • 颜色和色调饱和度,例如,热图。

在这里只强调了日常分析任务中最常见的元素。

正如前文所述,可视化的主要目的是传达信息,为此需要关注受众以及他们对信息的感知方式。所以,只对人们是否能正确理解感兴趣,这也是为什么我通常尝试使用来自列表顶部的视觉编码,因为它们更容易解释。

可视化工具‍

将在下文看到许多图表的示例,先来快速讨论一下使用的可视化工具。

可视化工具有诸多选项:

  • Excel或Google Sheet;‍

  • BI工具,如Tableau 或Superset;

  • Python或R库。

在大多数情况下,我更喜欢使用Python的Plotly库,因为它可以轻松地创建外观漂亮的交互式图表。在极少数情况下,我使用Matplotlib或 seaborn。例如,我更喜欢用Matplotlib作直方图(下文将看到),因为默认情况下,它给了我需要的东西,而Plotly则无法实现。

接下来,实际操练起来,讨论实际用例以及如何选取合适的可视化来实现它们。

 使用什么样的图表类型? 

因为存在很多不同种类的图表,应考虑在具体用例中使用哪种图表?

有一些有价值的工具,比如在“用数据讲故事”博客中描述的一个非常方便的Chart Chooser ,它可以助力了解一些原始的想法。

Stephen Few提出一些方法,我认为非常有用,他有一篇文章,“Eenie, Meenie, Minie, Moe:为你的信息选择正确的图表”,在这篇文章中,他定义了数据可视化的7个常见用例,并提出了如何选取正确的可视化类型来实现它们。

以下是这些用例的列表:

  • 时间序列

  • 名称比较

  • 偏差

  • 排名    

  • 部分到整体

  • 频率分布

  • 相关性

接下来将浏览并讨论每种案例的可视化示例,我并不完全同意作者关于可视化类型的建议,同时将分享自己的观点。

没有明确提到的情况下,下面的图表示例基于合成数据。

时间序列

 

用例是什么?它是可视化过程中最常见的用例,希望查看一个或几个指标在一段时间内的变化。

 推荐图表

最简单的选择(特别是如果有多个指标)是使用折线图。它突出了趋势,并为观众提供了数据的完整概览。

例如,使用了一个折线图来显示每个平台上的会话数量是如何随时间变化的,从中可以看到,iOS是增长最快的领域,而其他领域则停滞不前。   

6641d2af1d993f972489337d1b6f069f.png

作者生成可视化图片

使用线形图(而不是散点图)非常必要,因为线形图突出了趋势的坡度。

可以用Plotly毫不费力地得到这样的图,数据集统计了每月会话的次数。

7aebeb2884492ba1481afa34022dfbf6.png

然后,可以使用Plotly Express创建一个折线图,传递数据、标题并覆盖标签。

4c4db3471dffd67d02f0ccac249e33a4.png

在这里不讨论设计细节和如何在Plotly中对它进行调整,因为这是一个相当大的题目,值得单独写一篇文章。

通常在折线图的x轴上放置时间,并在数据点之间使用相等的时间间隔。

有一个常见的误解,y轴必须以零(它必须包括0)为起点,对于线形图来说,情况却不总是这样的,在某些情况下,它甚至可能会阻碍对数据的正确洞察。

例如,比较下面两个图表。在第一个图表上,会话的数量看起来相当稳定,而在第二个图表上,12月中旬则呈现明显的下降趋势,二者的数据集完全相同,区别只有y轴数据点范围不同。

f5ef788a8ada5db14202545c8cacd3bb.png    

作者生成可视化图片

1a06994b44938384827b3ac3f88813b2.png

作者生成可视化图片

时间序列数据的选项并不局限于折线图,有时,条形图同样也可以是一个不错的选择,例如,如果数据点不是很多,并且想要强调单个数据的值,而不是趋势时,可以选择条形图。

dcf15dac903bba8f0707a897f396282f.png

作者生成可视化图片

在Plotly中创建一个条形图同样非常简单。

ff581547dd96b8f45217275a6d05942d.png    


名称比较  

用例是什么?当想要跨段比较一个或多个指标时。

 推荐图表

如果有多个数据点,可以使用数个文本来代替图表,我比较喜欢这种方法,因为它简洁而整齐。

eef73529b40c42d54c2263a9ce51d2e6.png

作者生成可视化图片

在许多情况下,可以用条形图方便地比较这些指标。尽管垂直条形图通常比较常见,但当分段有长名称时,水平条形图则是更好的选择。

例如,可以比较不同地区的每个客户的年度GMVs (商品总价值)。

c9466f937874d53acf4486d4d2c92e21.png

作者生成可视化图片

要使条形图水平摆放,只需设置 orientation = "h"。   

2894835a8d01928c2e47331fb6d8d63c.png

重要提示:柱状图始终使用基于零的轴,否则,可能会误导观众。

当柱状图的数字太多时,则更喜欢用热图表示,此时,使用颜色饱和度来编码数字,由于这不是很精确,所以保留了标签。例如,在平均GMV视图中添加另一个维度。

715c9daa4ad4439c18ef932178317bfc.png

作者生成可视化图片

毫无疑问,同样也可以在Plotly中创建一个热图。   

b4038b30741506b711b05e0e98f36656.png

编者:在本篇文章中,我们从框架开始,通过讨论数据可视化,为实际用例选取最为合适的图表。具体而言,我们分析了时间序列与名称比较的可视化示例,在下文中,我们将继续分析其他案例的可视化示例,请继续关注!

感谢拔冗阅读本文,如果您有任何后续的问题或评论,请在评论区留下它们。

原文标题:

Visualisation 101: Choosing the Best Visualisation Type   

原文链接: 

https://towardsdatascience.com/visualisation-101-choosing-the-best-visualisation-type-3a10838b150d

编辑:王菁

校对:林赣敏

译者简介

6a2a45693631ab96f44c07ab92c7b012.jpeg

陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

b911024d756d1a7166a5d9f5ec92d5ff.png

点击“阅读原文”拥抱组织

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值