03_芳晓芬_基础数据 学习笔记

 本系列博客为本人假期学习2013年浙江大学可视化暑期班研讨会(一)整理的学习笔记或思维导图,写入博客以便有需要的人参考及作为自己备忘使用。本篇为方晓芬老师基础数据PPT的学习笔记。

1、数据基础

  数据对象的特征或特性
     别名:
        特征
        维度
        变量

  属性集合:属性向量
  属性类型:
     类别型属性
     有序型属性
     数值型属性
     离散型和连续型
   
2、数据特征
    基本统计描述
      数据的宏观表达
        “探索式数据分析”的基础:均值、中位数、方差 

                     均值                             中位数                                   方差 

 数据对象间的关系:相似度和相异度
      数据间关系的度量
      经常在统计和数据挖掘中的使用
          相异度矩阵:相异度矩阵存储n个对象两两之间的相似性,表现形式是一个n×n维的矩阵。d(i,j)是对象i和j之间相异性  的 量化表示,通常为非负值,两个对象越相似或“接近”,其值越接近0,越不同,其值越大,且d(i,j)= d(j,i),d(i,i)=0。
          
    类别型数据距离计算
      类别型数据:表现为类别,但不区分顺序,是由定类尺度计量形成的
                           其距离度量可以直接用属性集中,对应位置不相等的属性
                           的个数作为度量值
      不匹配率: d(i,j)=(p-m)/p
                 公式中,P为两对对象间的属性个数,M为两对象对应属性相等的个数。
            
      (二值类别型数据)Jaccard系数:
              Jaccard相似性系数,用来比较样本集中的相似性和分散性的一个
              概率。Jaccard系数等于样本集交集与样本集合的比值
              d(i,j)=(r+s)/(q+r+s)
    数值型属性间的距离:明科夫斯基距离系
       欧式距离(L2)
       曼哈顿距离(L1)
       明科夫斯基距离(LP)

                    欧式距离(L2)             曼哈顿距离(L1)         明科夫斯基距离(LP)

  数据的不确定性
      分类:
          存在不确定性
          属性不确定性
      来源:
          本身误差
          精度转换
          特定应用需求
          缺失值
          数据集成          
3、数据预处理
      ETL负责将分散的、异构数据源中的数据如关系数据、平面 数据文件等抽取到临时
      中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理
      、数据挖掘的基础。
        数据清理
        数据整合
      数据质量
          数据质量:数据质量高->对目标用途的符合度高
          精确性
          完整性
           一致性
          适时性
          可信性
          可解释性
      数据可视化质量
          数据墨水比(data-ink ratio):数据可视化质量的衡量标准
      数据清洗
          数据清理:检测和清除数据中的错误和不一致,以提高数据质量
      数据错误类型及处理方法
         缺失值:
          常量代替缺失值
          属性平均值填充
          回归
          人工填充
          噪声值:噪声数据是指数据中存在着错误或异常(偏离期望)的数据,这些数据
                对数据的分析造成了干扰。
          回归分析
          离群点分析
      可视数据清洗:
        使用可视化工具进行数据清洗
      数据整合
        数据整合包括:
          (1)合并来自多个数据源的数据
          (2)向用户提供一个关于这些数据的统一视图
      多数据源
        结构冲突:如不同模式等
        数据冲突:重复的记录,冲突的记录属性等
      数据清洗和整合步骤
         初步分析:在操作之前进行数据分析
         冲突解析:解析数据源间的数据冲突
         定义数据转换工作流方式完成模式(schema)配准和转换
         工作流验证:验证工作流中的步骤是否正确
         数据转换:开始流程

4、数据存储
      基于文件的存储
      数据库&数据库管理系统
      数据仓库
      最简单的方法:
         直接将数据存储为文件的形式
         优点:简单、方便
      电子表格类型:CSV文件
         逗号分隔值
      结构化文件格式
         通用格式:XML(可扩展标记语言,extensible Markup Language)
      XML的扩展
          IVOA VOTable:用于交换天文领域表格数据的XML扩展
          KML:在基于web的二维或三维地图上表达地理标注信息
      特殊用途文件格式
          HDF(Hierarchical Data Format):组织和存储大量的数据数据,特别是科学计算数据
      数据库
         关系型数据库管理系统(RDBMS)
           数据的关系模型是现代数据库系统的标准-最小化应用程序与机器表示间的耦合
              高级数据语言:
                  数据定义语言
                  结构化查询语言
           关系模型
              表(关系)
              列(属性)
              行(记录)
              约束
              键:主键,外键等
              索引
         NoSQL数据库:“Not Only SQL”(不仅仅是SQL)
            面向海量数据(并且数据不需要关系模型)
            通常不使用表结构,并且不使用SQL进行查询
            NoSQL数据库实例
               文档存储:CounchDB
               图结构存储:Neo4j
               键-值-redis(内存数据库),MongoDB(磁盘数据库)
               表格数据-Apache HBase (基于Hadoop)
      数据仓库:
         数据仓库是面向主题的、已整合的、时变且稳定的数据集合,用来支持管理者的决策过程。
         概括的讲,数据仓库是指与企业功能数据库分离维护的数据贮藏系统。
      数据库和数据仓库的异同:

5、数据分析
      探索式数据分析
         基于统计,数据可视化的驱动方法,使用简单的方法概括数据主要特征
         探索式数据分析中的可视化方法分类:
            原始数据绘图:
               (1)数据轨迹
               (2)柱状图
               (3)饼图
               (4)直方图
               (5)等值线图
               (6)走势图
               (7)散点图
               (8)热力图
               (9)维恩图(Venn diagram)
            简单统计值标会
                一维盒须图
                二维盒须图
            多视图协调关联
                
      数据挖掘
          数据挖掘/知识发现是一种自动、简易第从数据中提取表示知识的模式的过程,从
          存储在数据库、数据仓库中的数据,到网页、其他大型存储库,或是数据流

参考文章:2013年-浙江大学-数据可视化研讨会-3_数据基础_方晓芬ppt

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值