数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持( Decision Support)。
数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、 数据仓库、 数据应用。
数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是 ETL (抽取 Extra, 转化 Transfer, 装载 Load)的过程, ETL 是数据仓库的流水线,数据仓库日常的管理和维护工作的大部分精力就是保持 ETL 的正常和稳定。
数据仓库中的各个模块:
数据来源:点击流日志是一块主要的数据来源,它是网站分析的基础数据;当然网站的数据库数据也并不可少,其记录这网站运营的数据及各种用户操作的结果,对于分析网站 Outcome