数据仓库-架构
基本架构
架构是什么?
在软件行业普遍接受的架构定义是,指系统的一个或多个结构,包括软件的构建,构建外部可以看到的属性以及他们之间的相互关系。
把数据仓库架构理解成构成数据仓库的组件及其之间的关系。
数据仓库架构
如图
操作型系统由各种形式业务数据组成
这其中可能有关系数据库、TXT、CSV、HTML、XML、还可能有外部系统的数据、网络爬虫等。
数据可能是结构化、半结构化、非结构化的。
这些数据经过抽取、转换、装载(ETL)过程进入数据仓库系统。
抽取过程负责从操作型系统获取数据,该过程一般不做汇总。但是会按照主题进行集成。
物理上是将操作型系统的数据全量或增量复制到数据仓库系统的RDS中。RDS:RAW DATA STORES 原始数据存储。
转换装载过程并将数据进行清洗、过滤、汇总、统一格式化等一系列转换操作,使得数据转为适合查询的格式,然后就将数据装载进入数据仓库系统的TDS中。TDS:TRANSFORMD DATA STORES 转换后的数据存储。
RDS:将原始数据存储到数据仓库中,用户可以查询RDS里的数据而不必影响业务系统的正常运行,起到了操作型数据存储ODS的作用。
TDS:转换后的数据存储,真正的数据仓库中的数据。大量的用户在转换后的数据集上处理他们的日常查询。
在传统数据仓库中,原始数据存储通常是本地文件系统,被组织进相应的目录中,这些目录是基于数据从哪里抽取或何时抽取建立。转换后