目录
1 关系数据在大数据中的应用
1.1 数据间的关系
(1)数据间的差异
•
两
个或两个以上的
数据,存在差异,蕴含事物发展变化的情况或规律
•
通过对比或比较来评价
差异
,获得事物
发展变化的情况或
规律
•
比较维度
——
时间
•
比较维度
——
空
间
•
比较维度
——
特定标准
(2)数据的构成
•
集合:元素
之间除了“同属一个集合” 的相互关系外,别无其他关系
•
线性:元素存在一对一的相互关系
•
树形
:元素
存在一对多的相互关系
•
图形
:元素存在多对多的相互关系
(3)数据的联系
(4)数据的分布
•
数据的集中趋势
、离散程度以及分布形状等
2 数据的关联性
2.1 基本概念
•
数据
关联性是
数据
之间
的一种数
理
关系
•
关联性强,是指当一
个数值增长
时,另一个数值也会随之发生
变化(正相关、负相关)
•
关联性
弱,就是指一个数值增长时,另一个数值几乎没有发生
变化(不相关)
•
通过关联性,可以根据
一个已知的数值变化来预测另一个数值的变化
散点图
•
又
称
XY
散点图,将数据以点的形式展现,显示变量间的相互关系或者影响程度,点的位置由变量的数值决定
•
是
判断数据相关性的最简单、直观的方法
•
适用场景:
Ø
显示若干数据系列中各数值之间的
关系
Ø
判断两变量之间是否存在某种
关联
Ø
发现数据的分布或聚合情况
•
优点:
Ø
可以
展示数据的分布和聚合
情况
Ø
适合
展示较大的数据集
•
缺点:
Ø
看上去比较乱
Ø
基本只能看相关、分布和聚合,其他信息均不能很好展现
散点图矩阵
•
散点图矩阵是散点图的高维
扩展
•
反映数据
集中多个数值变量两两间的数量
关联
•
从
一定程度上克服了在平面上展示高维数据的
困难
气泡图
•
将
散点图中没有大小的“点“变成有大小的
“圆”
•
圆
的大小就可以用来表示多出的那一维数据的
大小
•
气泡图可以同时
比较三个
变量
气泡图使用建议
•
采用适当
大小的气泡
,采用面积
而不是
直径作为视觉通道
•
不使用奇怪的
形状,避免
添加过多的细节或使用不规则的形状,这可能导致表达效果不准确
3 数据的分布性
3.1 基本概念
数据的分布性:数据的集中趋势、离散程度以及分布形状等
数据分布的统计学指标:
•
众数:一组数据中出现次数最多的数值
•
中位数:按顺序排列的一组数据中居于中间位置的数
•
平均数:一组数据中所有数据之和再除以这组数据的个数
。
茎叶图(枝叶图)
•
将数组或序列中的变化不大或不变的位作为茎(主干
)
•
将
变化大的数作为叶(分枝)排在茎的
后面
•
优点
Ø
统计图上没有原始数据的损失
Ø
图中的数据可以随时记录和添加,方便
使用
Ø
•
缺点:
Ø
只能表示小样本数据的分布
Ø
可视化效果较弱
直方图(质量分布图)
•
展示
定量数据分布的常用
图形,反映数据分布
的
形态、
中心位置以及数据的离散
程度
•
由
一系列高度不等的纵向
条纹构成横轴
表示
数据取值区间
•
纵轴
表示分布
情况
•
横轴表示数据取值区间
•
使用
场景:直方图
一般在初步研究中使用,对数据分布特征进行描述。以及在判断数据正态性时,可作为初步判断工具
。
•
直方图的形状:
Ø
正常型:中间高、两边低,左右近似对称
直方图与柱形图的区别
• 直方图用于显示定量数据的 分布,而 柱状图对比定类 数据• 绘制 时,直方图是按照数值大小进行分组排列,前后顺序不可变更;柱状图则是对分类对象进行分组,而不是根据具体数值进行分组,分组顺序可以调整。
4 关系数据的其他表示方法
•包含 •层级 •分流 •联结
包含关系的可视化 | 韦恩图 |
层级关系的可视化 | 漏斗图、树图、矩形树图 |
分流关系的可视化 | 桑基图 |
联结关系的可视化 | 节点关系图 |