数据和数据可视化基础

数据基础

数据属性

数据对象的特征(Characteristics) 或特性 (feature)
别名:特征 维度 变量
属性类别:
  类别性属性:点、线、面
  有序性属性
  数值型属性
  离散性和连续性

数据特征

基本统计描述

数据对象间的关系

数据对象间的关系:相似度和相异度
数据间关系的度量,经常在统计和数据挖掘中使用相异度矩阵
在这里插入图片描述

类别型数据距离计算

在这里插入图片描述

数值型属性间的距离:明科夫斯基距离系

在这里插入图片描述

数据不确定性

分类:
  存在不确定性
  属性不确定性
来源:
  本身误差
  精度转换
  特定应用需求
  缺失值
  数据集成

数据预处理

在这里插入图片描述
ETL内部包括数据清理和数据整合
数据清理:检测和清除数据中的错误和不一致,以提高数据质量
数据整合包括 :
  (1)合并来自多个数据源的数据
  (2)向用户提供一个关于这些数据的统一视图
数据错误类型及处理方法:
  缺失值:
    常量代替缺失值
    属性平均值填充
    回归
    人工填充
  噪声值:
    回归分析
    离群点分析
数据质量:数据质量高 -> 对目标用途的符合度高
数据墨水比(data-ink ratio):数据可视化质量的衡量标准
数据清洗和整合步骤:
  初步分析:在操作之前进行数据分析
  冲突解析:解析数据源间的数据冲突
  定义数据转换工作流和转换规则:使用工作流方式完成模式(schema)配准和转换
  工作流验证:验证工作流中的步骤是否正确
  数据转换:开始流程

数据存储

基于文件的存储
数据库 & 数据库管理系统
数据仓库:数据仓库是面向主题的、已整合的、时变且稳定的数据集合,用来支持管理的决策过程。
Keyhole Markup Language(KML):在基于web的二维或三维地图上表达地理标注信息
HDF(Hierarchical Data Format):组织和存储大量的数值型数据,特别是科学计算数据
在这里插入图片描述

数据分析

统计是现代数据分析的基础同样也是数据挖掘、机器学习的基础

探索式数据分析

(1)基于统计
(2)数据可视化驱动的方法
(3)使用简单的方式概括数据主要特征
探索式数据分析中的可视化方法分类:
  原始数据绘图:柱状图、饼状图、直方图、散点图等
  简单统计值标绘:一维盒须图、二维盒须图
  多视图协调关联

数据挖掘

数据挖掘/知识发现是一种自动、简易地从数据中提取表示知识的模式的过程,从存储在数据库、数据仓库中的数据,到网页、其他大型储存库,或是数据流。

描述性任务:

  1. 概念描述:对数据集中的数据本身或其特征进行描述
  2. 关联分析:分析数据中的“属性-值”频繁出现的情况,并探究频繁出现的条件
  3. 聚类:对于无标记的数据,根据“最大化类内相似性、最小化类间相似性”的原则进行分组
  4. 离群点分析:分析数据集中与数据一般行为或模型不一致的数据点

预测性任务:

  1. 分类:使用能够描述并区分数据类别或概念的模型,预测数据中标记未知的对象。模型的导出基于对训练数据集的分析。
  2. 演化分析:分析数据随时空变化所形成的演变规律(单调、周期等),并对其建模,使用模型对未知时空位置的数据进行预测。

数据挖掘中的方法:
  统计方法:回归分析;参数估计
统计学习方法:概率模型;贝叶斯网络
  机器学习:决策树;神经网络
  算法方法:K-means,K-最近邻

数据可视化基础

可视化流程模型

流水线模型
在这里插入图片描述
回路模型
在这里插入图片描述
可视分析模型
在这里插入图片描述

可视化编码

(灰度)值可被认为是有序的,可用于编码数值型数据
色调通常认为是无序的,可用于编码不同维度的值

可视编码的优先级:

在这里插入图片描述
可视编码的表现力
表达且仅表达数据的完整属性:
          精确性
          可辨性
          可分离性
          视觉突出
可视编码原则:
  分组会对大部分任务有效
  如果不能进行分组,需要转换任务目标以支持分组
  当类别过多时,尽量减少类别
  对数据的每个维度指定一种颜色

可视化设计

可视化设计目标

表达力强:真实全面地反映数据的内容
有效性强:用户对可视化显示信息的理解效率
简洁
易用
美感

可视化设计步骤

数据的筛选:
  设计者必须决定可视化所能处理的数据的信息量
避免
  可视化展示了过少的数据信息
  设计者试图表达和传递过多的信息
解决方案:
  数据的筛选操作—让用户选择当前显示的部分数据
  多视图或多显示器—根据数据的相关性分别显示
  
确定数据到图形元素(即标记)和视觉通道的映射:
  充分利用人们已有的先验知识,从而降低人们对信息的感知和认知所需要的时间
  
视图的选择与用户交互控制的设计:
  视图交互
  滚动与缩放
  颜色映射的控制
  数据映射方式的控制
  数据缩放和裁剪工具
  LOD控制

可视化设计框架

可视化设计的4个层次
问题刻画层
数据层
编码和交互层(核心)
设计并实施用户实验

可视化隐喻

视觉隐喻:在视觉上将目标物体/形象与另一领域的(源)物体进行相似性对比
可视化隐喻:将数据特性与自然界真实物体结合起来,通过读者对自然界物体的认知来增强可视化表达效果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值