数据仓库的三层数据结构
EDW与ODS
数据仓库的数据特征
- 状态数据与事件数据
- 当前数据与周期数据
- 数据仓库中的元数据
数据仓库的数据ETL过程
- ETL概念
- 数据的ETL过程描述
- 抽取(Capture/Extract)
- 清洗(Scrub/Cleanse)
- 转换(Transform)
- 集成(Data Integration)
- 加载和索引(Load/Index)
ETL的概念:数据ETL是用来实现异构数据源的数据集成
,
即完成数据的抓取/抽取(Capture/Extract)、清洗(Scrub or data cleansing)、转换(Transform)、装载与索引(Load and Index)等数据调和工作 。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lvnATDI3-1646492786850)(./images/1645779183814.png)]
数据抽取
数据命名的透明度(什么数据存放在哪个源系统当中)
由一个源系统实施的业务规则的完整性和准确性 (数据的精度)
数据格式 (跨数据源的数据格式)
数据清理:对数据进行重新审查和校验的过程。其目的在于纠正存在的错误,并提供数据一致性
- 缺失值的处理;
- 噪声数据;
- 不一致数据。
引起空缺值的原因
设备异常
与其他已有数据不一致而被删除
因为误解而没有被输入的数据
在输入时,有些数据因为得不到重视而没有被输入
对数据的改变没有进行日志记载
空缺值要经过推断而补上
如何处理空缺值?
1)忽略元组:
若一条记录中有属性值被遗漏了,则将该记录排除在数据挖掘之外
但是,当某类属性的空缺值所占百分比很大时,直接忽略元组会使挖掘性能变得非常差
2)忽略属性列:
若某个属性的缺失值太多,则在整个数据集中可以忽略该属性
3)人工填写空缺值:
工作量大,可行性低
4)使用属性的中心度量值填充空缺值:
如一条属于a类的记录在A属性上存在缺失值,那么可以用该属性上属于a类全部记录的平均值来代替该缺失值。
如面对顾客一次来超市时最常消费的钱数这一字段,可以按照顾客的年龄这一字段进行分类,使用处于相同年龄段的顾客的平均消费的钱数来填充缺失值。
5)使用一个全局变量填充空缺值:
对一个所有属性的所有缺失值都使用一个固定的值来填补(如“Not sure”或∞)。
尽管该方法简单,并不推荐它
挖掘的程序可能会误以为这是一个特殊的概念
6)使用可能的特征值来替换空缺值(最常用):
数据挖掘者可以生成一个预测模型,来预测每个丢失值
如可以利用回归、贝叶斯计算公式或判定树归纳确定,推断出该条记录特定属性最大可能的取值
如每个样本给定3个特征A、B、C,那么可以根据三个值全都作为一个训练集的样本,生成一个特征之间的关系模型,一旦有了训练好的模型,就可以提出一个包含丢失值的新样本,并产生预测值。
噪声数据
噪声(noise) :被测量的变量产生的随机错误或误差
数据收集工具的问题
数据输入错误
数据传输错误
技术限制
命名规则的不一致
多维数据模型和星模式
多维数据模型及其相关概念
多维数据模型的物理实现
多维建模技术简介
一个星模式的例子
多维数据模型及其相关概念
有关多维数据模型的几个概念:维、维类别、维属性、度量、粒度及分割等
(粒度的划分根据实际情况划分)
关于数据综合级别与粒度的确定:
一般把数据分成四个级别:早期细节级、当前细节级、轻度综合级、高度综合级
多维数据模型的物理实现
多维数据库(MDDB),其数据是存储在大量的多维数组
中,而不是关系表
中 ,与之相对应的是多维联机分析处理(MOLAP)
关系数据库是存储OLAP数据的另一种主要方式。与之对应的是关系联机分析处理(ROLAP)
多维建模技术简介
两种主流建模技术 :由Inmon提出的企业级数据仓库模型和由Kimball提出的多维模型 ;
基于关系数据库的多维数据建模,如星型,雪花和事实星座模式;
关于事实表、维表及键的设计
1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
3、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
4、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。
5、使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。
6、维度表一般又主键、分类层次和描述属性组成。对于主键可以选择两种方式:一种是采用自然键,另一种是采用代理键。
7、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。
8、数据仓库中存在不同综合级别的数据。一般把数据分成4个级别:早期细节级、当前细节级、轻度综合级和高度综合级。