一、数据仓库概念
- 数据仓库(DataWarehouse)是一个面向主题的(Subject Oriented)、数据集成的(Integrated)、相对稳定(非易失)的(Non-Volatile)、反映历史变化(时变)(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
- 数据仓库是决策支持系统(dss)的结构化数据环境,决策支持系统基于数据仓库进行联机分析处理 ( OLAP ) 。常用的技术有,HDFS、HBase、Hive、SparkSql等。
二、数据仓库系统流程
- 数据仓库系统的结构图
- 系统各部分的执行流程
- 确定分析所依赖的源数据。
- 通过ETL将源数据采集到数据仓库。
- 数据按照数据仓库提供的主题结构进行存储。
- 根据各部门的业务分析要求创建数据集市(数据仓库的子集)。
- 决策分析、报表等应用系统从数据仓库查询数据、分析数据。
- 用户通过应用系统查询分析结果、报表。
四、源数据
源数据是指用于分析的原始数据,这一步主要是根据分析需求确定源数据,这个数据分布在内
部系统和外部分系统中,内部数据主要是企业ERP系统、外部数据是指企业外部分系统所产生的数
据,通常是指行业数据。源数据最大的特点是格式不统一,如果要对源数据进行分析需要经过ETL
对数据进行集中获取、过虑、转换等处理。
五、ETL
ETL(Extra, Transfer, Load)包括数据抽取、数据转换、数据装载三个过程。
- 抽取(数据抽取是从各各业务系统、外部系统等源数据处采集源数据。)
- 转换(采集过来的源数据如果要存储到数据仓库需要按照一定的数据格式对源数据进行转换,常
见的转换方式有数据类型转换、格式转换、缺失值补充、数据综合等。) - 装载(转换后的数据就可以存储到数据仓库中,这个过程要装载。数据装载通常是按一定的频率
进行的,比如每天装载当天的订单数据、每星期装载客户信息等。)