数据挖掘学习笔记二
数据仓库中的ETL
ETL作用:是数据仓库获得高质量的数据的环节。
- 解决数据分散问题。
- 解决数据不清洁问题。
- 方便企业各部门构筑数据集市。
ETL:六个子过程
- 数据提取(data extract)
- 数据验证 ( data verification)
- 数据清理 (data cleaning)
- 数据集成 (data integration)
- 数据聚集 (data aggregation)
- 数据装载(data load)**
数据提取
数据源接口,从业务系统中捕获数据,为数据仓库输入数据
数据验证
解决数据质量检测问题,包括一系列检查。如:属性的有效性,关系的主外键检查,重复记录检查等。
数据清理
主要解决以下问题:
- 1)源数据系统同数据仓库在模型上的差异.
- 2)源数据系统不一致.
- 3)源数据结构的不一致.
- 4)源数据定义不规范导致错误数据.
- 5)对数据的约束不严格,导致无意义数据.
- 6)重复记录.
数据清理包括的主要任务:
- 数据合并
- 域转换和同步
- 数据类型和格式的转换
- 数据拆分
- 删除重复记录
- 修复错误数据等等
数据集成
- 将多个数据源联合成一个统一数据接口。
- 应用数据集成业务规则,数据转换逻辑和算法
数据聚集
收集并以汇总形式表达信息的过程,如以业务报表的形式表达。
数据装载
两种基本方法:
- 1)利用DBMS提供的SQL ,如I U D操作
- 2)批量数据装载实用程序.
装载周期:按日,月,周.
数据追加策略
1)直接追加:每次装载时直接将数据追加到目标表中。
2)全部覆盖:如果抽取数据本身已经包括了数据的当前和历史状况,可以对目标表采用全部覆盖的方式。
3)更新追加:对于需要连续记录业务的状态变化,并用当前最新状态同历史状态数据进行对比的情况,可以采用更新追加的方式。
元数据
概念
- 是关于数据的数据,在DW中是关于DW的数据.
- 是指在数据仓库建设过程中产生的有关数据源定义、目标定义、转换规则等关键数据,是定义数据仓库对象的数据。
如传统数据库中的数据字典就是一种元数据。
元数据的作用
- (1)元数据时进行数据集成所必需的
- (2)元数据定义的语义层可以帮助最终用户理解数据仓库中的数据.
- (3)元数据时保证数据质量的关键.
- (4)元数据可以支持需求变化
分类
(1)按用途分为:管理元数据和用户元数据
管理元数据: 是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据.包括:
- 1) 数据仓库结构的描述
- 2)业务系统,数据仓库和数据集市的体系结构和模式;
- 3)汇总的算法;
- 4)由操作环境到数据仓库环境的映射.
用户元数据:从业务角度描述数据仓库中的数据,涉及:
- 1)如何连接数据仓库
- 2)可以访问数据仓库的哪些部分
- 3所需要的数据来自哪一个源系统
(2)按来源分:
- 数据源的元数据
- 数据模型的元数据
- 数据源与数据仓库映射的元数据
- 数据仓库应用的元数据.
(3)按生成使用的时间分:
- 设计时收集/使用的元数据
- 构建时生成/使用的元数据
- 运行时生成的元数据
(4)按DW功能区域的划分
- 数据获取元数据
- 数据存取元数据
- 信息传递元数据
(5)按元数据在DW中所承担的任务分:
静态元数据
动态元数据