1. 什么是数据仓库
数据仓库之父 Bill Inmon 将数据仓库描述为一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。
数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持。
数据仓库本身并不 “生产” 任何数据;同时自身也不需要 “消费” 任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫 “仓库” ,而不叫 “工厂” 的原因。
2. 数据仓库的基本概念
2.1 数据源
构建一个数据仓库,必然要有充足的数据源,从外部为数据仓库系统提供进行分析的 “原材料” ——数据,这些数据来源称为数据仓库的数据源。
数据源并不局限于传统数据库,可以是非结构化的信息,如爬取日志,也可以是埋点日志。
2.2 ETL
在 BI 项目中 ETL 会花掉整个项目至少 1/3 的时间,ETL 设计的好坏直接关系到 BI 项目的成败。其中,花费时间最长的是 “T”(Transform,清洗、转换)的部分,一般情况下这部分工作量是整个 ETL 的 2/3 。
ETL 是将业务系统中的数据经过抽取(Extract)、清洗转换(Transform)和加载(Load)到数据仓库的过程,目的是将企业中的分散、凌乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
分享链接:https://download.csdn.net/download/weixin_41116804/85534571