写在前面
数据分析师的日常工作中,与数仓同学的沟通非常密切。
本文通过阅读《大数据之路–阿里巴巴大数据实践》书籍,并列举实际工作中遇到的例子来详细解读数据分析师应该理解的数仓知识。旨在最终帮助分析师与数仓同学无GAP地沟通。
总述
数仓的基本概念
数据仓库:数据按照特定的模型组织起来。虽然对于使用者不友好,但是对于数仓管理人员相对友好,因为它按照一种集约化的规则将数据管理起来。
数据集市:面向最终用户的数据市场。数据以业务人员接受的方式组合在一起。这个组合方式是多变的,因为业务人员的需求是多变的。
数据湖:存储的是未经加工的原始数据,包含结构化和非结构化的各类数据。有点像把宜家的家具零件全部拆散存储。但是原始数据如果缺少统一的数据标准,就像不同的家具零部件之间的接口不同,那就无法组装在一起了。
数据中台:狭义的数据中台指的是一套数据应用和工具,包括分布式ETL、数据资产管理、数据标签管理、数据沙箱、自助分析平台、元数据管理、数据质量管理等。底层则有数据仓库、大数据平台等为数据源,为企业提供数据资产管理的能力。
广义的数据中台,则在狭义的数据中台基础上,包含了顶层数据战略、数据治理体系以及数据管理及运营、数据文化培养和组织架构支撑。
摘录自:https://zhuanlan.zhihu.com/p/189640832
数仓的分层
1.数据采集层
日志采集