一.目标
- 了解数据之间的对比关系,可以通过哪些「标记+视觉通道」映射,从而来表现差异;
- 熟练掌握表示数据对比关系的图形类型,以及这些图形的适用场景、异同;
- 熟悉描述性统计的相关内容,掌握分布型数据可视化的常用图表和适用场景;
- 实践:给定2个数据集,选择合适的图表并进行可视化呈现,实现工具不限;
二.如何优雅地选择数据图表:对比型和分布型数据图表
2.1 对比型和分布型
对比型:对比两组或两组以上数据的差异
分布型:研究数据分布的集中趋势/离散程度/偏态和峰度等。
2.2 对比型
对比型数据需要把差异表示出来:
(1)高度差异/宽度差异:柱状图/条形图
(2)面积差异:面积图/气泡图
(3)字号差异:单词词云
(4)形状差异:星状图
-
柱状图
😄单一柱状图:适合单一类别的数据对比,也适合离散型时序数据的趋势
😄重叠柱状图:适合两个类别的数据对比,通常配合折线图使用,折线图表示目标完成率
😄并列柱状图:适合两个或三个数据类别的对比
😄堆叠柱状图:适合既要对比总体的数据,又要对比总体个构成项的数据
注:该图摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)
-
条形图
相比较柱状图而言,可以展示更多的数据条数;如果柱状图分类过多时,可以选用条形图
注:该图摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)
-
面积图
面积图折线图的延伸,其实就是折线图和折线图投影到X坐标轴所围成的面积
👟 堆叠对比型面积图:所有系列的面积基线都是X,系列之间有重叠和覆盖的关系。
👟 堆砌对比型:只有底层系列的面积基线和X重和。
注:该图摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)
-
气泡图
- 一般用于三维数据的可视化,散点图则用于二维数据的可视化。在散点图中圆点的面积是相同的,主要通过X,Y来确定位置,映射数据。而气泡图通过面积的大小来对比数据的图形方式。
- 当有多个系列时,气泡图可以通过不同颜色标识。
注:该图摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)
-
单词云图
单词云图主要用于统计文字词频的可视化,如网络热点/写作的文章等等,对其中关键词/高频词/热点等,重点突出展示,发现热点。
注:该图摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)
-
雷达图/星状图
当对比一个主题或者多个主题本身时,在不同唯独上的特征时,可以选择雷达图和星状图。
🛰雷达图:数据主题具有多个维度上的特征,对比同一主题,在不同维度上的数据,偏向。
⚛️星状图:多体多维度数据,即多个主题,且多个主题的维度相同。获得不同差异与侧重点。
注:该图摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)
2.3 分布型
通过对数据描述性度量(集中/离散/偏态和峰度),估计数据的分布特征。
-
直方图
👟频数直方图:
👟频率直方图:
步骤:1)数据分组,统计每组内频数和频率;2)确定数据上下限;3)绘制矩形。
注:该图摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)
-
茎叶图
适合整数数据的可视化。茎叶图的原理是将一组数据按照数据位数进行比较,将数据中的高位数作为树茎,低位数作为树叶。
3,7,9,14,15,16,25,26,29,36,41,43,45,46,49
数据范围 频数 0-9 3 10-19 3 20-29 3 30-39 1 40-49 5 对应的树茎和树叶可以表示为:
树茎 树叶 0 379 1 456 2 569 3 6 4 13569 图形化表示为:
注:该茎叶图部分摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)
-
箱型图
箱型图常用比较四分位数,即一组数据中下四分位数,中位数,上四分位数。
注:该部分摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)
作用:
- 发现数据中异常值/离群点
- 箱子宽度,两个四分位差一定程度上反应数据的离散程度,数据集中50%的区间,中间区域。
-
概率密度图
对于连续型随机变量的概率密度函数,描述随机变量的输出。计算概率则为该区间上的积分,也就是面积值。
可以通过图形化方式,观察对称性/集中离散程度/偏态与峰值
注:该部分摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)
-
散点图/气泡图(见2.2中)
-
热力图
通过密度函数进行可视化,密度密集的反映。在地图/网页分析等领域应用。
👟热力地图:如表示各个路况拥挤的程度,颜色越深表示越挤。人流等。
👟网页热力分析:如网页点击热力分布,主要为营销推广/用户体验用。
👟业务数据分析:带有地理信息属性的数据,或者离散时间属性的数据。
注:该部分摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)
-
地图
📉 二维平面地图
📉 三位立体地图
注:该部分摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)
三. 实践
-
三组电商平台数据分析
电商平台 商品丰富度 商品质量 物流效率 售后服务 淘宝 4.9 4.3 4.3 4.9 京东 4.2 4.7 4.9 4.6 拼多多 4.7 4 4 4.5 分析:绘制了雷达图
店铺名称 | 月度收入(W) | 月度成本(W) | 月度综合评分(百分制) |
---|---|---|---|
店铺1 | 20.63 | 52.63 | 72 |
店铺2 | 100 | 65 | 92 |
店铺3 | 79 | 52 | 93.5 |
店铺4 | 40 | 39 | 90 |
… … | … | … | … |
50多个店铺的分析,气泡图显得有些乱;雷达图也是。
成本和收入在一个柱子上,上面的图添加了次坐标轴,这种差距无法明显展示。因此单独将成本和收入分别列出柱子。
箱型图分析出现类似异常。
注:本文章为***数据科学家联盟***中数据可视化学习小组笔记,其中绝大多数内容引自 微信公众号数据科学家联盟 如何优雅地选择数据图表:对比型和分布型数据图表 ,如转载请联系版权所有者微信公众号木东居士**
typora格式参考:
https://www.cnblogs.com/hongdada/p/9776547.html
更多图标样式可以参考百度echarts:
https://www.echartsjs.com/examples/zh/index.html