第二章 数据预处理
a.数据清理脏数据
填充缺失值 使用缺省值、平均值、最可能的值【贝叶斯 决策树等】
光滑噪声 封箱【箱均值 箱边界】 回归 聚类
识别离群点
【原则】唯一性原则 连续性原则 空值原则
b.数据集成
合并多个数据源的数据 解决一致性 模式集成 对象匹配 实体识别问题
冗余:通过相关分析 检测到。根据数据度量的一个属性能在多大程度上蕴含另一个 --皮尔逊积矩系数【PearsonProduct coefficient】
大于零 则正相关 等于零 独立 小于零 负相关
对于离散数据 也可以通过卡方检验发现
属性上检测冗余 同时元组tuple上也要查重
数据值冲突的检测和处理 重量单位等等
c。数据变换
光滑【封箱 回归 聚类】
聚集 数据变成数据立方体
数据泛化:年龄--》青年中年老年
规范化:按比例缩放 最小-最大 规范化 z-score规范化【减平均值除以方差】 按小数定标规范化【小数点左移最大的绝对值的位数】
属性构造:构造新的属性并添加进去
d。数据归约
数据立方体聚集
属性子集选择 去掉不相关和冗余属性
维度归约 小波变换DWT【有损压缩,比DFT需要的空间小,局部性好,有利于保留局部细节 高维数据】 主成分分析【PCA KL方法 稀疏数据】
数值归约
【回归和对数线性模型】
【直方图---等宽 等频【等深】 V最优【最小方差】MaxDiff【两个直方图之间相邻距离最大】】
【聚类】
【抽样】无放回 有放回 聚类抽样 分层抽样
离散化和概念分层产生
分箱 容易受离散点影响
直方图分析 非监督 桶
基于熵的离散化:期望信息需求。
基于卡方的区间合并
聚类分析
根据直观划分离散化3-4-5规则
概念集 属性分层 偏序关系
描述性数据汇总:中心趋势度量:均值 中位数 众数 中列数【数据最大值最小值的平均值】
数据离中趋势度量:四分位数(Quatile)四分位数极差(IQR)方差(variance)
图形表示:直方图、盒图、分位数图、分位数-分位数图、散布图和散布图矩阵
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------
第三章 数据仓库和OLAP技术概述
数据立方体 上卷 下钻 切片和切块
数据仓库
面向主题的
集成的
时变的
非易失的
数据仓库的构造:数据集成 数据清理 数据统一
OLTP和OLAP的主要区别:
1.用户和系统的面向性。OLTP面向顾客,OLAP面向市场
2.数据内容 OLTP管理当前数据,琐碎难以用于决策
OLAP管理历史数据,通过汇总和聚集机制,不同力度级别的信息,可以用于决策
3.数据库设计 OLTP ER数据模型和面向应用的数据库设计。OLAP星形和雪花形
4.视图:OLTP企业或部门内部的当前数据,不涉及历史数据或不同组织的。OLAP跨越数据库模式的多个版本,来自不同组织的数据,存在多个存储介质上
5.访问模式: OLTP原则是原子事务构成,需要并发控制和恢复机制
6.其他:数据库大小、操作的频繁程度、性能度量
为什么要分开OLTP和OLAP?为了提高两个系统各自的性能;OLTP并发控制,加锁,OLAP只读访问;两种系统中数据的结构、内容和用法都不尽相同。
多维数据模型:
星形 一个事实表,一堆维表,每维只用一个表表示
雪花形 星形的变种,某些维度有标准格式,可能会进一步划分
事实星座形: factconstellation
数据仓库 datawarehouse 整个组织 企业范围的 事实星座形 可以对多个相关主题建模
数据集市 datamart上述的部门子集 ,通常用星形或雪花形
DMQL语言
聚集函数类型有三种:分布的【count 分开算也可以 min max 】代数的【由分布函数做运算获得】整体的【中位数 众数 排序】
概念分层: 上卷:roll-up
下钻:drill-down
切片/切块:slice/dice
转轴:rotate/pivot
三层数据仓库的系统结构:
底层 仓库数据服务器 关系数据库系统
中间 OLAP服务器
顶层 前端客户端
三种数据仓库模型:企业仓库、数据集市、模拟仓库【操作数据库视图的集合】
元数据存储库:元数据:关于数据的数据 应当持久存放和管理
OLAP服务器的类型: ROLAP 关系型DBMS优化 可伸缩性强 数据存在关系表中 汇总事实表
MOLAP多维 基于数组的多维存储引擎 能快速索引,但如果是稀疏数据则存储的存储利用率比较低 存在多维数组结构中
HOLAP混合结合R的较大的可伸缩性和M的快速计算
特殊的SQL服务器:
数据仓库的实现:大多数OLAP产品借助于多维聚集的预计算。然而,预计算的主要挑战是,如果数据立方体中所有的方体都预先计算,所需的存储空间可能爆炸,特别是当立方体包含很多维时,当许多维都具有相关联的概念分层,每个具有多层时,存储需求甚至更多,这个问题称作维灾难。
所以选择部分物化:有选择的计算整个方体中的部分子集。
冰山立方体:只计算聚集值大于某个最小支持度阈值的立方体单元
shellcube外壳立方体,预计算只有少量维度的立方体【3-5】
OLAP数据的索引:
位图索引【bitmapindexing】:
连接索引:登记来自关系数据库的两个关系的可连接行,能够识别可连接的元组。星形模式:对于交叉搜索非常赞
组合:位图连接索引
如何选择不同粒度的物化方体:
1.细粒度数据不能由粗粒度数据产生,先去掉不能满足要求粒度的方体
2.最好选择最接近粒度的,不要选择太细粒度的,增加运算量
3.还要考虑连接的代价,和索引
MOLAP存储二级办法:稠密数组:数组结构;稀疏数组:稀疏矩阵结构;二维稠密数组:B树索引
数据仓库到数据挖掘OLAM
数据仓库用于信息处理【查询 报表】 分析处理【用户通过OLAP汇总数据和细节数据之间导航】 数据挖掘【支持知识发现【KDD】】