可视化学习第三周-对比型和分布型数据

21 篇文章 0 订阅
19 篇文章 4 订阅

一.目标

  • 了解数据之间的对比关系,可以通过哪些「标记+视觉通道」映射,从而来表现差异;
  • 熟练掌握表示数据对比关系的图形类型,以及这些图形的适用场景、异同;
  • 熟悉描述性统计的相关内容,掌握分布型数据可视化的常用图表和适用场景;
  • 实践:给定2个数据集,选择合适的图表并进行可视化呈现,实现工具不限;

二.如何优雅地选择数据图表:对比型和分布型数据图表

在这里插入图片描述

2.1 对比型和分布型

对比型:对比两组或两组以上数据的差异

分布型:研究数据分布的集中趋势/离散程度/偏态和峰度等。

2.2 对比型

对比型数据需要把差异表示出来:

(1)高度差异/宽度差异:柱状图/条形图

(2)面积差异:面积图/气泡图

(3)字号差异:单词词云

(4)形状差异:星状图

  • 柱状图

    😄单一柱状图:适合单一类别的数据对比,也适合离散型时序数据的趋势

    😄重叠柱状图:适合两个类别的数据对比,通常配合折线图使用,折线图表示目标完成率​

    😄并列柱状图:适合两个或三个数据类别的对比

    😄堆叠柱状图:适合既要对比总体的数据,又要对比总体个构成项的数据

    img

    注:该图摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)

  • 条形图

    相比较柱状图而言,可以展示更多的数据条数;如果柱状图分类过多时,可以选用条形图

    img

    注:该图摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)

  • 面积图

    面积图折线图的延伸,其实就是折线图和折线图投影到X坐标轴所围成的面积

    👟 堆叠对比型面积图:所有系列的面积基线都是X,系列之间有重叠和覆盖的关系。

    👟 堆砌对比型:只有底层系列的面积基线和X重和。

    img

    注:该图摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)

  • 气泡图

    • 一般用于三维数据的可视化,散点图则用于二维数据的可视化。在散点图中圆点的面积是相同的,主要通过X,Y来确定位置,映射数据。而气泡图通过面积的大小来对比数据的图形方式。
    • 当有多个系列时,气泡图可以通过不同颜色标识。

    img

    注:该图摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)

  • 单词云图

    单词云图主要用于统计文字词频的可视化,如网络热点/写作的文章等等,对其中关键词/高频词/热点等,重点突出展示,发现热点。

    img

    注:该图摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)

  • 雷达图/星状图

    当对比一个主题或者多个主题本身时,在不同唯独上的特征时,可以选择雷达图和星状图。

    🛰雷达图:数据主题具有多个维度上的特征,对比同一主题,在不同维度上的数据,偏向。

    ⚛️星状图:多体多维度数据,即多个主题,且多个主题的维度相同。获得不同差异与侧重点。

    img

    注:该图摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)

2.3 分布型

通过对数据描述性度量(集中/离散/偏态和峰度),估计数据的分布特征。

  • 直方图

    👟频数直方图:

    👟频率直方图:

​ 步骤:1)数据分组,统计每组内频数和频率;2)确定数据上下限;3)绘制矩形。

img

​ 注:该图摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)

  • 茎叶图

    适合整数数据的可视化。茎叶图的原理是将一组数据按照数据位数进行比较,将数据中的高位数作为树茎,低位数作为树叶。

    3,7,9,14,15,16,25,26,29,36,41,43,45,46,49

    数据范围频数
    0-93
    10-193
    20-293
    30-391
    40-495

    对应的树茎和树叶可以表示为:

    树茎树叶
    0379
    1456
    2569
    36
    413569

    图形化表示为:

    img

    注:该茎叶图部分摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)

  • 箱型图

    箱型图常用比较四分位数,即一组数据中下四分位数,中位数,上四分位数。

    img

    注:该部分摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)

    作用:

    • 发现数据中异常值/离群点
    • 箱子宽度,两个四分位差一定程度上反应数据的离散程度,数据集中50%的区间,中间区域。
  • 概率密度图

    对于连续型随机变量的概率密度函数,描述随机变量的输出。计算概率则为该区间上的积分,也就是面积值。

    可以通过图形化方式,观察对称性/集中离散程度/偏态与峰值

    img

    注:该部分摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)

  • 散点图/气泡图(见2.2中)

  • 热力图

    通过密度函数进行可视化,密度密集的反映。在地图/网页分析等领域应用。

    👟热力地图:如表示各个路况拥挤的程度,颜色越深表示越挤。人流等。

    👟网页热力分析:如网页点击热力分布,主要为营销推广/用户体验用。

    👟业务数据分析:带有地理信息属性的数据,或者离散时间属性的数据。

    img

    注:该部分摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)

  • 地图

    📉 二维平面地图

    📉 三位立体地图

    img

    注:该部分摘自微信公众号:木东居士(本文章为***数据科学家联盟***中数据可视化学习小组笔记,如转载请联系版本所有者***木东居士***)

三. 实践

  1. 三组电商平台数据分析

    电商平台商品丰富度商品质量物流效率售后服务
    淘宝4.94.34.34.9
    京东4.24.74.94.6
    拼多多4.7444.5

    分析:绘制了雷达图

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

店铺名称月度收入(W)月度成本(W)月度综合评分(百分制)
店铺120.6352.6372
店铺21006592
店铺3795293.5
店铺4403990
… …

50多个店铺的分析,气泡图显得有些乱;雷达图也是。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
成本和收入在一个柱子上,上面的图添加了次坐标轴,这种差距无法明显展示。因此单独将成本和收入分别列出柱子。
在这里插入图片描述

在这里插入图片描述
箱型图分析出现类似异常。

注:本文章为***数据科学家联盟***中数据可视化学习小组笔记,其中绝大多数内容引自 微信公众号数据科学家联盟 如何优雅地选择数据图表:对比型和分布型数据图表 ,如转载请联系版权所有者微信公众号木东居士**

typora格式参考:

https://www.cnblogs.com/hongdada/p/9776547.html

更多图标样式可以参考百度echarts:

https://www.echartsjs.com/examples/zh/index.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值