上一篇学习的是基于【时序型数据】和【比例型数据】如何选择图表,这篇讨论基于【对比型数据】和【分布型数据】来选择图表:
- 【对比型数据】:对比两组或者两组以上数据的差异;
- 【分布型数据】:探索数据分布的集中趋势、离散程度、分布形状。
一、对比型数据可视化
对比型数据一般是比较几组数据的差异,这些差异通过视觉通道和标记来区分,体现在可视化中通常表现为以下几种差异形式:
(1)高度差异/宽度差异:用柱状图、条形图。
(2)面积差异:面积图、气泡图。
(3)字号差异:单词云图。
(4)形状差异:星状图。
对比型数据可视化用到的图表:
1、柱状图
柱状图可用于比较不同分类数据的可视化,但是柱状图的数据条数,最好不要超过12条。根据数据类别的个数和可视化的目的,柱状图还可细分为:
(1)单一柱状图。常用于单一类别的数据比对,也可以表示离散型时序数据随时间变化的趋势;
(2)重叠型柱状图。适合两个类别的数据对比,外围的半透明柱形条表示某项指标的【目标值】,内部偏窄且不透明的柱形条表示某项指标的【实际完成情况】。通常会搭配折线图使用,折线图则表示目标完成率;
(3)并列柱状图。常用于两个或三个数据类别的对比,一般数据类别不能超出3个;
(4)堆叠柱状图。即可以对比总体数据,也可以对比总体的各构成部分,但是总体各构成项一般不要大于5个,若大于5个,可按占总体的比例进行归类,只展示前五个的分类,剩下的归为【其他】。
2、条形图
条形图类似于柱状图,看起来像是对柱状图的x、y轴进行旋转。大部分情况下,条形图与柱状图可以互换,但是条形图也可用来展示柱形图不方便展示的数据:
(1)当数据条数大于12条时,可以用条形图,但是不要超过30条;
(2)当柱状图的x轴描述文字过长,不方便显示时,可用条形图。
3、面积图
面积图,其实就是折线图和折线图投影到X轴的直线所围成的面积。按照对比方式的不同,面积图又可以分为:【重叠对比型面积图】和【堆砌对比型面积图】,两者的区别如下:
(1)重叠对比型面积图。所有类别的面积都是以X轴作为基准线,不同类别之间有重叠和覆盖的关系,也可用于分析各个类别随时间的变化趋势;
(2)堆砌对比型面积图。只有最底层类别的面积基线和X轴重合,其他类别都是叠加在它们下面一组的数据上面,假设最底层为(2,1),它的上一层为(2,2),则在图中,它的上一层坐标为(2,2+1)。另外也可以用于分析整体随时间的变化趋势以及整体的各构成项随时间的变化趋势;
4、气泡图
气泡图,可以展示三维数据的可视化,x轴为第一维、y轴为第二维、气泡的面积大小为第三维,气泡的颜色用来区分不同类别。而散点图一般用作二维数据的可视化,点的大小都一样。
5、单词云
单词云图,是通过单词的字号大小来反映词频的大小,字号越大,词频越高。主要用于网络文本中词频数据的可视化,例如关键词搜索、文章高频词、热点事件关键词等。通常,为了达到贴合主体的特征,以及视觉美观的目的,用户可以自定义单词云的配色方案、背景形状等设计层面的个性化。
通过单词云图,用户可以快速找出网站搜索的高频词汇、了解文章的主旨、得到热点事件的关键信息。但是单次云图只适合表示一组文本数据内的对比,不适合多个类别的文本数据之间的比较。
6、雷达图/星状图
雷达图/星状图是用来对比一个主体、或多个主体本身,在不同维度上的特征,两者区别如下:
- 雷达图是展示一个主体在不同维度上的数据特征,对比的是,同一个主体,在不同维度上的偏向。主要应用于企业经营状况评价;
- 星状图是展示多个主体在不同维度上的数据特征,对比的是,不同主体之间的差异和侧重点。
雷达图可以看作是星状图中的一行记录,一般情况下,会给予不同维度上的数值一定的权重,从而算出各个主体的综合得分。比如个人综合素质度量。
二、分布型数据可视化
分布型数据的可视化主要是对数据的描述性特征,比如离散程度、集中趋势、偏态、峰度等进行展示,通过这些反映数据分布特征的关键指标。数据的描述性统计指标大概如图所示:
相应的,分布型数据常用的可视化图表有以下几种:
1、直方图
直方图是展示离散型分组数据的分布情况,分为【频数直方图】和【频率直方图】,两者的区别在于,【频数直方图】的y轴显示的是数量,【频率直方图】的y轴显示的是占比情况,即频率。绘制直方图分三个步骤:
- 首先,对数据进行分组,并统计每一组数据的频次或者频率;
- 其次,在平面直角坐标系中,X轴标出每个组数据的下限和上限;
- 最后,y轴表示频数或频率,每个矩形的高代表对应的频数或频率。
2、茎叶图
茎叶图一般适合数据为整数的数据的可视化,原理是,将一组数据按照数据位数进行比较,将数据中的高位数作为树茎,低位数作为树叶。假设有如下一组数据:
3,7,9,14,15,16,25,26,29,36,41,43,45
则:
树茎 | 树叶(频数) |
---|---|
0 | 3 |
1 | 3 |
2 | 3 |
3 | 1 |
4 | 3 |
3、箱线图
箱线图是一种用作显示一组数据分散情况资料的统计图,常用来对比多组数据的分布情况,检测数据中的异常值或离群点,绘制方法如下:
- 先找出一组数据中的四分位数以及最大值、最小值;
- 连接上四分位数Q3和下四分位数Q1画出一个箱子,箱子中间用中位数画一条线;
- 在箱子的上下部又各有一条线,代表着最大最小值;
另外,箱子的宽度即四分位距(Q3-Q1)在一定程度上反映了数据的离散程度。
4、概率密度图
概率密度图是用来描述连续型随机变量其分布规律。连续型随机变量取值某个确定数值的概率则为概率密度函数在这个区域上的积分,也就是区间的上下限与概率密度曲线围成的面积。通过图形化的方式,我们可以清楚的看到随机变量分布的情况,以及随机变量取值是集中还是分散,这些可以通过偏态系数和峰度系数来度量:
(1)对于标准正态分布来说,偏态系数SK=0,当SK<0,图形左偏分布;当SK>0,图形右偏分布;
(2)标准正态分布中,峰度系数为β=3,当β<3,图形呈现扁平分布;当β>3,图形呈现尖峰分布。
5、散点图/气泡图
气泡图的用法同上述(一、4)。
散点图,一般是用于研究两个变量之间的相关关系,可以是一个类别数据,也可以是多类别数据,但是都是二维的数组(x,y),不同类别的数据可用颜色来区分。
6、热力图
热力图,是以特殊高亮的形式显示访客热衷的页面区域或访客所在的地理区域的图示,目前主要应用在以下几个方面:
(1)网站热力图。网站热力图就是基于网页访问者所有点击和鼠标移动的数据而创建的热力图,对于受关注度不同的区域分别进行着色,红色是“最热门”(用户关注度最高)的区域,而蓝色则是“最冷门”(用户关注度最低)的区域。这种可视化格式可以帮助人们了解网页的哪一部分最吸引人。
(2)热力地图。热力地图就是利用获取的手机基站定位该区域的用户数量,通过用户数量渲染地图颜色。主要显示一个城市的某个区域人员或车辆拥挤程度,颜色越深表示人员越多,颜色浅代表人比较少,地图就是方便人们的出行,有了热力图可以很直观的看到区域内的人群流量。
(3)业务数据分析。一些基于地理位置或者基于时间分布的数据,可以利用热力图来进行可视化分析。
7、地图
当数据是基于地理位置进行分组或者数据的重要属性中有地理信息时,可以用地图来展示数据在各个地理区域的分布情况。比如显示全国各地区的人均收入、各地区的人员数量都可以用地图可视化。
三、总结
通过上面的学习,可知无论是要对比数据,还是探索数据的分布情况,都需要根据数据的类型、数据的特征来确定可视化的最佳方式。图表的选择方式大致如下:
四、可视化实践
1、对比型数据
场景1:比较三家电商公司在消费者心中的印象评分
电商平台 | 商品丰富度 | 商品质量 | 物流效率 | 售后服务 |
淘宝 | 4.9 | 4.3 | 4.3 | 4.9 |
京东 | 4.2 | 4.7 | 4.9 | 4.6 |
拼多多 | 4.7 | 4 | 4 | 4.5 |
问题1:以上数据适合用什么图形展示,请用可视化工具进行实现。
回答:观察上述数据发现,需要对比三个电商平台在四个方面的评分,这里可以用柱形图,x轴为评分的四个方面,y轴为评分,柱形的高低代表评分的高低。如图:
2、分布型数据
场景2:某公司50家店铺的月度收入、成本和综合评分
店铺名称 | 月度收入(W) | 月度成本(W) | 月度综合评分(百分制) |
店铺1 | 20.63 | 52.63 | 72 |
店铺2 | 100 | 65 | 92 |
店铺3 | 79 | 52 | 93.5 |
店铺4 | 40 | 39 | 90 |
店铺5 | 23 | 26 | 78 |
店铺6 | 36 | 13 | 94.2 |
店铺7 | 49 | 32 | 93.5 |
店铺8 | 62 | 44 | 94 |
店铺9 | 75 | 56 | 94.1 |
店铺10 | 88 | 68 | 94.2 |
店铺11 | 101 | 80 | 94.3 |
店铺12 | 114 | 92 | 94.4 |
店铺13 | 127 | 104 | 94.5 |
店铺14 | 140 | 116 | 94.6 |
店铺15 | 153 | 128 | 94.7 |
店铺16 | 83 | 56 | 94.8 |
店铺17 | 13 | 15 | 79 |
店铺18 | 20.9 | 30.9 | 76.6 |
店铺19 | 28.8 | 38.8 | 76.5 |
店铺20 | 36.7 | 46.7 | 76.4 |
店铺21 | 44.6 | 54.6 | 76.3 |
店铺22 | 52.5 | 62.5 | 76.2 |
店铺23 | 60.4 | 70.4 | 76.1 |
店铺24 | 89.4 | 99.4 | 76 |
店铺25 | 65.6 | 75.6 | 75.9 |
店铺26 | 41.8 | 34 | 91.8 |
店铺27 | 18 | 15 | 91.2 |
店铺28 | 21.86 | 18 | 90.9 |
店铺29 | 25.72 | 19 | 93.5 |
店铺30 | 29.58 | 28 | 90.8 |
店铺31 | 33.44 | 37 | 78.9 |
店铺32 | 37.3 | 46 | 80.4 |
店铺33 | 41.16 | 55 | 76.9 |
店铺34 | 45.02 | 64 | 75.6 |
店铺35 | 48.88 | 44 | 92.7 |
店铺36 | 52.74 | 24 | 96.5 |
店铺37 | 56.6 | 43.6 | 93.2 |
店铺38 | 60.46 | 47.46 | 93.3 |
店铺39 | 64.32 | 51.32 | 93.4 |
店铺40 | 68.18 | 55.18 | 93.5 |
店铺41 | 72.04 | 59.04 | 93.6 |
店铺42 | 75.9 | 62.9 | 93.7 |
店铺43 | 79.76 | 66.76 | 93.8 |
店铺44 | 56.76 | 43.76 | 93.9 |
店铺45 | 33.76 | 23 | 92.8 |
店铺46 | 10.76 | 16 | 74 |
店铺47 | 18.66 | 13 | 92.7 |
店铺48 | 26.56 | 15 | 92.8 |
店铺49 | 34.46 | 28 | 92.9 |
店铺50 | 42.36 | 46 | 75 |
问题2:用户想了解这50家店铺的收入、成本和店铺综合评分的分布,请问用什么图形展示,请用可视化工具进行实现。
回答:这里用描述性统计来描述数据分布,收入、成本和店铺综合评分分别用箱线图展示。