###数据仓库 4个特征:
- 面向主题 :数据仓库侧重于数据分析工作,是按照主题存储的
- 集成的 :对原有分散的数据库经过加工,汇总和整理得到,消除数据的不一致性,保证数据仓库内的信息是整个企业的一致的全局信息
- 相对稳定的 :有大量的查询操作,修改和删除操作很少
- 反映历史变化的 :系统记录过去某一时间点到目前各阶段的信息
存储的数据:
- 元数据:数据字典,数据的定义,数据的抽取规则等
- 数据: 按照元数据的定义格则,经过抽取,清理,转换,集成,按照主题重新组织,依照相应的存储结构进行存储
数据集市
数据集市可以看做是数据仓库的一个子集,它含有较少的主题,数据量更少;它一般是为了满足企业特定部门的分析需求而专门建立的数据的集合,因此也称为部门级数据仓库,数据来源是数据仓库
###缓慢变化维 Slowly Changing Dimensions(SCD),维度的属性不是静态的,会随着时间变化发生缓慢的变化。
处理缓慢变化维通常有三种方式:
- 直接覆盖原值
优点:容易实现 缺点:没有保留历史数据 - 添加维度行 维度属性发生变化时,生成一条新的维度记录,通过自然健与原维度记录保持关联。
- 添加属性列
添加属性列,来记录该属性变化前的值,而本属性直接覆盖。
缺点:只保留了最后一次变化信息
###退化维度
保存在事实表中,是事实表的一个属性,但是不需要对应的维度表。