一、理解数据含义&明确目标
做可视化,最容易进入的误区就是,拿到一堆数据,还没有理解数据有什么含义,直接就开始套用图形进行展示,把大部分时间用在美化图表上,而完全忽略数据本身传达的意义。
上面这张图信息量很大,可以帮助大家评估一个可视化作品是否成功。
比如,把数据按照一个故事线组织起来,那多半是一个研究文档或者提纲,再加上特定的目标和功能介绍,才可以画出线框图,最后加上视觉形式,才有可能变成一个成功的可视化作品。
再比如,只有数据和视觉形式,那可能只是纯粹的数据艺术,看起来很美,其实没有价值,就算加上一个故事,也没有什么特定的用途,给不了任何启发,只有赋予它一个特定的目标,才有可能成为一个成功的可视化。
所以,明确一个可视化作品的目标是很重要的,知道了要传达什么信息,达到什么目标,才知道要选择什么展现形式。不同的图表类型适合表达不同的含义,比如,要比较趋势,折线图就比柱状图更合适,比如,要表达占比,饼图不一定比堆积柱状图好用。
二、选择合适的展现形式
从四个角度来分类:构成、对比、分布、关系
2.1 饼状图/环形图
饼状图经常表示一组数据的占比,需要数值维度。如图,各扇形面积代表各类型封装修材料销售额的大小,整体为装修材料总销售额。
右侧环形图为饼状图的变种,中心区域可展示数据或者文本信息
饼状图缺陷:
1)例如30%和35%在饼状图上凭肉眼是难以分辨出区别的。
2)当类别过多,也不适宜在饼状图上表达。
建议:
在使用饼状图时我们需要顺时针降序排列,同时维度取值在10个以内。
2.2 矩形树图
当我们想表达过多类型的数据时,可以使用矩形树图,它展现同一层级的不同分类的占比情况,还可以同一个分类下子级的占比情况,每个矩形代表一个聚合类,颜色的深浅和面积的大小代表这个聚合类的大小。
缺陷:
1)不适合展现不同层级的数据,比如组织架构图,每个分类不适合放在一起看占比情况。
2)当以面积表示大小,当数值相近时人眼难以辨别,当然可通过填充数值弥补。
2.3 瀑布图
采用绝对值与相对值结合的方式,展示各成分构成情况,更多的用于核心指标的分解,适合展示数据累积变化过程,局限是各类数据差别太大则难以比较。
2.4 柱状图
柱状图是一种应用得很广泛的图形,它表征分类型变量与数值型变量的关系,常用于多个维度的比较和变化。
柱形图至少需要一个数值型维度,通常文本维度/时间维度通常作为X轴,数值型维度作为Y轴。
一般需要排序,如果分类型变量是有序的,按照它本身的顺序排列即可。如果分类型变量无序,那么则根据数值型变量的大小进行排序,使柱状图的高度单调变化。
2.5 条形图/多指标条形图
类似柱状图,只不过两根轴对调了一下。因为有大量空白位置标示每个类别的名称, 所
以适用于类别名称过长的情况,但分类过多则无法展示数据特点。
2.6 象形图
以形象化的图片数量代表维度数值的大下,多用于具体实物的对比。用形象化图形来代表
其维度,让观众者很容易了解到这组数据的维度表示。
2.7 堆积柱形图/堆积条图
用来比较同类别各变量和不同类别变量总和差异。需要注意的是堆积柱内各项间具有相同
性质的维度划分,最好不要是不同的度量。
如图,柱与柱之间表格各区域数量对比,同时对比三个类别产品在各区域订单数量。
2.8 折线图
折线图是用来观察数据的趋势,主要展示数据随时间或有序类别的波动情况的趋势变化。对比时使用,常见时间维度对比
2.9 面积图
用面积展示数值大小,展示数量随时间变化的趋势。多用于时间维度的对比,其中堆积面
积图中堆积部分需要是具有相同性质的维度划分。
2.10 雷达图
雷达图将多个分类的数据量映射到坐标轴上,对比某项目不同属性的特点,适用于了解同类别的不同属性的综合情况,以及比较不同类别的相同属性差异。
它在商务、财务领域应用较大,常见于经营状况,财务健康程度。比如对企业财务进行分析,划分出六大类:销售、市场、研发、客服、技术、管理。通过雷达图绘制出预算和实际开销的维度对比,会很清晰。
这里需要注意雷达图的数据必须进行标准化处理,同时指标是正向且可以比较的,也就是指标代表越好,且当指标差异较大时,需要进行标准化,消除单位影响。另外雷达图是静态数据,不可能有时间维度,同时能表达的静态数据信息有限,线条不宜超过5条,指标不宜超过8个。
2.11 蝴蝶图
2.12 双轴图
以左右两个Y轴的形式,展示同一维度下不同指标的情况。两个坐标轴的图表类型选择需要区分开
2.13 漏斗图
漏斗图是流程转化分析,适用于关键业务环节数据比较,将各环节串联起来构成漏斗,量化流程内环节,追踪各环节转化率。
转化是漏斗图主要表达的信息。在实际工作中,各种业务流程均可构建漏斗。
2.14 词云
词云主要展现文本信息,对出现频率较高的“关键词”予以视觉上的突出,常用于对比文本出现频次。如用户画像标签,搜索关键词频次、新闻关键词频次。
2.15 散点图/气泡图/四象限图
散点图通过坐标轴来揭示数据间的关系,发掘变量与变量之间的关联,当存在大量数据点,结果更精准,比如回归分析。
当数据量小的时候会比较混乱。气泡图是散点图的变种,它使用气泡代替散点图的数值点,面积大小代表数值大小。
2.16 地图
一切和空间属性有关的分析都可以用到地理图。比如各地区销量,或者某商业区域店铺密集度等。
一般用颜色深浅或气泡大小来展示区域范围的数值大小。比如人口密度、各地区销量,或者某商业区域店铺密集度等。
2.17 热力图
热力图可以用于对比两个维度的数值大小,用颜色深浅代表数值的大小。热力图在网页分析、业务数据分析等其他领域也有较为广泛的应用。
2.18 桑基图
桑基图是一种特定类型的流程图,图中延伸的分支宽度对应数据流量的大小,它常表示信息的变化和流动状态。常用于能源、材料成分、金融等数据的可视化分析,还有网站用户行为路径的分析。
2.19 关系树图
三、一些错误示范
3.1 过度设计影响信息表达
如下图,其实只需要表现一个度量,但是却用了三维图形,扇面的高度不具有任何含义。
条形图足以表达:
3.2 使用过多的色彩
颜色本身也传递了一定的信息量,过多的颜色也给人一头雾水的感觉:
结合我们想要表现的重点,有针对性的突出一到两种颜色即可:
3.3 避免信息过载
折线图比较了太多系列,建议不超过三个:
3.4 少用3D效果
3D效果通常不能表现额外的信息,反而会造成不必要的遮挡和误解:
改成2D的图形效果反而更好:
四、总结
当我们做数据可视化,需要正确地进行选择,依据数据类型和目的选择正确的图表类型。
步骤:
1.可以先对现有的数据进行分析,得出自己的初步结论,明确要表达信息和主题(即:你通过图表要说明什么问题)
2.根据目的在现有的或你知道的图表信息库中选择能够满足你目标的图表类型
3.最后开始动手制作图表,并对图表进行美化、检查,直至最后图表完成。
注:数据可视化只是表层的东西,数据分析才是核心!
个人数据分析网站收藏:
1.199IT大数据导航:比较全的大数据相关网站导航,应有尽有。公众号经常发一些国外的经济数据报告,有些部分报告可以作为参考,非常优秀的平台。
2.艾瑞数据:大数据方向行业资讯,也有一些干活的文章