数据基础
数据属性
数据对象的特征(Characteristics) 或特性 (feature)
别名:特征 维度 变量
属性类别:
类别性属性:点、线、面
有序性属性
数值型属性
离散性和连续性
数据特征
基本统计描述
数据对象间的关系
数据对象间的关系:相似度和相异度
数据间关系的度量,经常在统计和数据挖掘中使用相异度矩阵
类别型数据距离计算
数值型属性间的距离:明科夫斯基距离系
数据不确定性
分类:
存在不确定性
属性不确定性
来源:
本身误差
精度转换
特定应用需求
缺失值
数据集成
数据预处理
ETL内部包括数据清理和数据整合
数据清理:检测和清除数据中的错误和不一致,以提高数据质量
数据整合包括 :
(1)合并来自多个数据源的数据
(2)向用户提供一个关于这些数据的统一视图
数据错误类型及处理方法:
缺失值:
常量代替缺失值
属性平均值填充
回归
人工填充
噪声值:
回归分析
离群点分析
数据质量:数据质量高 -> 对目标用途的符合度高
数据墨水比(data-ink ratio):数据可视化质量的衡量标准
数据清洗和整合步骤:
初步分析:在操作之前进行数据分析
冲突解析:解析数据源间的数据冲突
定义数据转换工作流和转换规则:使用工作流方式完成模式(schema)配准和转换
工作流验证:验证工作流中的步骤是否正确
数据转换:开始流程
数据存储
基于文件的存储
数据库 & 数据库管理系统
数据仓库:数据仓库是面向主题的、已整合的、时变且稳定的数据集合,用来支持管理的决策过程。
Keyhole Markup Language(KML):在基于web的二维或三维地图上表达地理标注信息
HDF(Hierarchical Data Format):组织和存储大量的数值型数据,特别是科学计算数据
数据分析
统计是现代数据分析的基础同样也是数据挖掘、机器学习的基础
探索式数据分析
(1)基于统计
(2)数据可视化驱动的方法
(3)使用简单的方式概括数据主要特征
探索式数据分析中的可视化方法分类:
原始数据绘图:柱状图、饼状图、直方图、散点图等
简单统计值标绘:一维盒须图、二维盒须图
多视图协调关联
数据挖掘
数据挖掘/知识发现是一种自动、简易地从数据中提取表示知识的模式的过程,从存储在数据库、数据仓库中的数据,到网页、其他大型储存库,或是数据流。
描述性任务:
- 概念描述:对数据集中的数据本身或其特征进行描述
- 关联分析:分析数据中的“属性-值”频繁出现的情况,并探究频繁出现的条件
- 聚类:对于无标记的数据,根据“最大化类内相似性、最小化类间相似性”的原则进行分组
- 离群点分析:分析数据集中与数据一般行为或模型不一致的数据点
预测性任务:
- 分类:使用能够描述并区分数据类别或概念的模型,预测数据中标记未知的对象。模型的导出基于对训练数据集的分析。
- 演化分析:分析数据随时空变化所形成的演变规律(单调、周期等),并对其建模,使用模型对未知时空位置的数据进行预测。
数据挖掘中的方法:
统计方法:回归分析;参数估计
统计学习方法:概率模型;贝叶斯网络
机器学习:决策树;神经网络
算法方法:K-means,K-最近邻
数据可视化基础
可视化流程模型
流水线模型
回路模型
可视分析模型
可视化编码
(灰度)值可被认为是有序的,可用于编码数值型数据
色调通常认为是无序的,可用于编码不同维度的值
可视编码的优先级:
可视编码的表现力
表达且仅表达数据的完整属性:
精确性
可辨性
可分离性
视觉突出
可视编码原则:
分组会对大部分任务有效
如果不能进行分组,需要转换任务目标以支持分组
当类别过多时,尽量减少类别
对数据的每个维度指定一种颜色
可视化设计
可视化设计目标
表达力强:真实全面地反映数据的内容
有效性强:用户对可视化显示信息的理解效率
简洁
易用
美感
可视化设计步骤
数据的筛选:
设计者必须决定可视化所能处理的数据的信息量
避免
可视化展示了过少的数据信息
设计者试图表达和传递过多的信息
解决方案:
数据的筛选操作—让用户选择当前显示的部分数据
多视图或多显示器—根据数据的相关性分别显示
确定数据到图形元素(即标记)和视觉通道的映射:
充分利用人们已有的先验知识,从而降低人们对信息的感知和认知所需要的时间
视图的选择与用户交互控制的设计:
视图交互
滚动与缩放
颜色映射的控制
数据映射方式的控制
数据缩放和裁剪工具
LOD控制
可视化设计框架
可视化设计的4个层次
问题刻画层
数据层
编码和交互层(核心)
设计并实施用户实验
可视化隐喻
视觉隐喻:在视觉上将目标物体/形象与另一领域的(源)物体进行相似性对比
可视化隐喻:将数据特性与自然界真实物体结合起来,通过读者对自然界物体的认知来增强可视化表达效果