最近做数据分析项目对数据仓库有了一点理解
数据沉淀又叫做资料探勘、数据采矿。它是数据库知识发现中的一个步骤。
数据稽核 稽是考察、稽查,核是审核、核实、核查。
数据稽核的大致思路是通过数据完整性、数据一致性、数据准确性三方面依次 对 DM 层数据进行稽核。
STAGE
层(对应原来数据模型的
SRC
接口层
)
信息模型:
提供业务系统
数据文件的临时存储,
数据稽核,
数据质量保证,
屏蔽对业务系统的干扰,
对于主动数据采集方式,
以文件的方式描述系统与各个专业子系统之间数
据接口的内容、
格式等信息。
与该模型对应的数据是各个专业系统按照该
模型的定义传送来的数据文件。
STAGE
是生产系统数据源的直接拷贝,
由
ETL
过程对数据源进行直接抽
取
,
在格式
和
数据定义
上不作任何改变
。
与生产系统数据的
唯一不同
是,
STAGE
层
数据
具有
时间
戳
。
STAGE
层
存在的意义在于
两点
:
(
1
)
对
数据源
作
统
一
的
一次性获取
,数据
仓库
中
其他部
分
都依赖
于
STAGE
层
的数据,
不再重复
进行抽
取
,
也不
在生产系统
上作运算
,
减小
生产系统的
压力;
(
2
)
在
生产系统数据
已经刷新
的
情况
下,
保存
一
定量的生产系统的
历
史
数据,以
便
在
二次
抽
取
过程中
运算出错
的
情况
下可以进行
回溯
。
2)
ODS/DWD
层(对应原模型的
ODS
和
DW
层)信息模型
:
简称
DWD
层
是数据
仓库
的
细节
数据
层
,
是对
STAGE
层
数据进行
沉淀
,
减少了
抽
取
的
复杂性
,
同
时
ODS/DWD
的信息模型
组织
主
要遵循企
业业务
事
务
处理
的
形
式,
将
各个专业数据进行集中。
为
企
业进行
经营
数据的分
析
,
系统
将
数
据按分
析
的主
题
的
形
式存
放
,
跟
STAGE
层
的
粒度一致
,
属
于分
析
的
公共
资
源。
3)
MID
信息模型
:
轻度综合层
是
新
模型
增加
的数据
仓库
中
DWD
层和
DM
层
之间的
一
个过
渡层次
,是对
DWD
层
的生产数据进行
轻度综合和汇总
统
计
。
轻度综合层
与
DWD
的主
要区
别
在于
二
者
的应
用领域
不同
,
DWD
的数据来源于生产型系统,
并
为
满足
一
些
不
可
预
见的
需
求
而
进行
沉淀;
轻度综合层
则
面
向
分
析
型应
用
进行
细粒度
的统
计和沉淀
。