数据可视化
介绍
章节内容
数据可视化的概念、原理与各种常用的分析方法
考试内容
-
数据可视化简介
(1) 数据可视化的基本概念
(2) 数据可视化的发展历史
(3) 数据可视化的基本作⽤
(4) 数据可视化的⼀般流程
(5) 数据可视化的软件⼯具 -
单变量数据可视化
(1) 条状图
(2) 饼图
(3) 玫瑰图
(4) 词云图 -
数据预处理
(1) 散点图
(2) 折线图
(3) 平⾏坐标图
(4) 桑基图 -
空间数据可视化
(1) 地图的基础数据
(2) 空间数据可视化的呈现
(3) 可互动式的空间数据可视化 -
数据预处理的R软件实现
(1) R软件常⽤的数据可视化系统
(2) 单变量数据可视化的R软件实现
(3) 多变量数据可视化的R软件实现
(4)空间数据可视化的R软件实现 -
数据可视化的注意事项
考核内容
-
数据可视化简介
识记:数据可视化的基本概念、发展历史、基本作⽤与软件⼯具。
领会:数据可视化的基本原理与⼀般流程。 -
单变量数据可视化
识记:条状图、饼图、玫瑰图与词云图的应⽤背景。
领会:条状图、饼图、玫瑰图与词云图的绘制原理与⽅法。 -
数据预处理
识记:散点图、折线图、平⾏坐标图与桑基图的应⽤背景。
领会:散点图、折线图、平⾏坐标图与桑基图的绘制原理与⽅法。 -
空间数据可视化
识记:空间数据可视化的类型。
领会:地图基础数据的获取、空间数据可视化的呈现原理与⽅法、可互动式空间数据
可视化的具体⽅法。 -
数据可视化的R软件实现
识记:R软件中常⽤的数据可视化系统。
领会:利⽤R软件进⾏单变量、多变量以及空间数据可视化的⽅法。 -
数据可视化的注意事项
识记:数据可视化的基本要求。
领会:在数据可视化过程中如何选择图形元素。
简单应⽤:利⽤R软件对具有实际应⽤背景单⼀变量的数据进⾏可视化分析。
综合应⽤:利⽤R软件对⾏业领域中某些实际问题的多变量数据进⾏数据可视化分析。
数据可视化简介
研究表明,90%的信息通过视觉形式传到大脑,速度比文字信息要快6万倍。
基本概念
数据可视化的3个目的:
- 直观地展示数据。讲数据的某些信息简单、直观地呈现出来。
- 分析数据信息。减少 读懂数据、归纳出其中的某些重要信息 的工作量。
- 实现数据的价值。针对受众的需求,对数据进行有目的的提炼和展示,使得其价值能被集中利用。
提取数据信息的方式从分析方法来讲分为三类:
- 数据描述分析。其是对所收集的信息进行分析并得出反映客观现象各种数量特征的一种分析方法,包括数据的集中趋势分析、数据离散程度分析、数据的频数分布分析等,描述性分析是对数据进一步分析的基础。
- 推断性分析。**其是研究如何根据样本数据来推断总体数量特征的一种分析方法,实在对样本数据进行描述统计分析的基础上,对研究总体的数量特征作出推断。**常见的分析方法有假设检验、相关分析、回归分析、时间序列分析等。
- 探索性分析。**其是通过一些分析方法从大量的数据中发现未知且有价值信息的一种分析方法,它不受研究假设和分析模型的限制,尽可能地寻找变量之间的关联性。**常见的分析方法有聚类分析、因子分析、对应分析等。
基本作用
- 观测、跟踪数据
- 分析数据
- 辅助理解数据及数据分析结果
- 增强数据吸引力
一般流程🌟
七个阶段。
- 获取。
获得数据。
- 分析。
我的理解:构建结构图,分析后将列数据转换为有用的格式,例如float,索引等。
- 过滤
删除不需要的部分。具有空值的个体数据,或者对于某个维度将所有数据按照某个数学模型进行范式化。
- 挖掘
利用统计学及数据挖掘方法辨析数据格式,挖掘其中的规律。这个步骤涉及数学、统计和数据挖掘。
- 表述
选择一个基本的视觉模型,比如条形图、列表或者网状结构图。
在这个阶段可以重新审视早期的那些阶段。
- 修饰
改善基本的表述方法,使它变得更加清晰和更容易视觉化。其实是对第5步的美化。
- 互动
增加方法来操作数据或控制其可见的特性。
我的理解:增加动态图功能。
软件工具
Excel, Tableau, R, Python, Google Charts, D3, Echarts, DataV, Flourish, Gephi
单变量数据可视化
一般地,对于单变量的数据,常常首先会考虑提取数据的频数或取值本身或所占比率等,而所采取的数据可视化可以选择散点图、条形图、饼图等。
条形图
bar chart,是对某一个索引或等级数据,规定单位长度表示一定的数量,利用宽度相同的条形元素的高度或长度来表示各索引或等级数据的某个统计量大小的图形。
可以横置或纵置,纵置也称为柱形图column chart。
用来展示频数。
以2011年3月大西洋地区3000名男性工人的婚姻状况为例。
以250频数为单位,选择合适的宽度,条形图如下。
堆积条形图与簇状条形图
它们可以在婚姻情况的基础上,再多显示一种信息,health_ins。前者是堆积起来,后者是左右对比起来。
饼图
饼图,用于表示比例大小、部分与整体之间的关系。详细就不介绍了。
玫瑰图
又叫南丁格尔玫瑰图、风玫瑰图、名鸡冠花图、极坐标区域图。
- 是在极坐标下绘制的条形图,条形元素变为扇形元素使用扇形元素的半径长短表示数据某统计量的大小。由于半径和面积的关系是平方的关系,玫瑰图会将数据之间的比例大小夸大,尤其适合对比大小相近的数值。
- 由于图形有周期的特性,所以玫瑰图也适用于表示一个时间周期内的数据信息,如星期、月份。
玫瑰图的绘图
- 与条形图类似,统计频数,选取单位,换算成半径长度。
- 建立极坐标系,将该指标的5个取值均匀地对应在不同的极坐标角度刻度。
- 在每个刻度上,利用半径绘制扇形元素
以下面数据为例:
玫瑰图如下所示:
还有堆积玫瑰图的概念,和堆积条形图类似。
词云图
word cloud chart,对某一段文本中出现的频率较高的“关键词”予以视觉上的突出。
基本步骤有:
- 分词
- 统计频数,排序
- 删除连词、虚词等没有实际含义词
- 按词频绘词
多变量数据可视化
对两个及两个以上的变量进行分析。
散点图
分析两个及两个以上浮点或整型变量之间关系时,样本点在直角坐标系平面上的分布图。数据可以在横坐标、纵坐标、也可以是点颜色、点符号。
可用于观察散点是否有一定分布密度的聚集点群,成团状或是带状。或者是否距离很远、正相关、负相关、线性相关等。
有时候数据可以进行适当变换,比如进行对数变换。
气泡图
与散点图类似,但利用散点的大小来展示第三个变量。它可以半径与数值成正比,也可以面积与数值成正比,前者在显示上会夸大。
- 散点图还可以分面,也就是多个图片拼成1张。
- 若出现数据数值相同,可用随机扰动法、半透明法、分箱法解决。
折线图
分析数值与时间之间的关系,数值随时间起伏变化。
折线图可以有多条折线。
折线图还可以堆积数值,成为堆积折线图。
平行坐标图
用于多变量可视化。将数个坐标轴平行的排列在平面上,再利用折线穿过坐标轴的刻度展示每一个样品,并找到样品之间的分类关系或变量之间的相关关系。
雷达图
又称星状图。可看作是平面坐标系看成星状的结果。
桑基图
也叫桑基能量分流图、桑基能量平衡图。桑基图最明显的特征是始末端的分支宽度总和相等,即所有主支宽度的总和应与所有分出去的分支宽度的总和相等,保持能量的平衡。
图中延伸的分支的宽度对应数据流量的大小。主要由边、流量和节点组成。边代表流动的数据,流量代表流动数据的具体数值,节点代表了不同分类。边的宽度与流量成比例地显示。边越宽,流量数值越大。
人数随着变量的不同而不同。
弦图
是二维桑基图的变形,将各变量的平分类图依次排列在圆上。
空间数据可视化
看书
数据可视化的R软件实现
略
数据可视化注意事项
重点看:什么情况选什么图