数据仓库
知识发现流程
数据清洗集成——数据仓库——选择迁移——数据挖掘——模式评估
数据仓库
数据仓库是一个面向主题的,集成的,时时变化的且非易失的数据集合
数据仓库的定义不严格,但普遍具有的特征:
- 与数据库分开维护,独立决策
- 通过数据分析提供信息处理方式
数据仓库的Subject-Oriented
- 围绕核心主题
- 关注数据建模和分析,而不是数据操作
- 为决策提供简单可分析的视图
数据仓库的Integrated
- 异构数据
- 关系数据库,平面文件,联机事物
数据仓库的Time Variant
显而易见,数据仓库的时间跨度比数据库长
数据仓库的Nonvolatile
- 物理隔离的存储
- 数据不会像数据库长期更新
OLTP和OLAP