一、前言
本文核心点:了解互联网仓库是做什么的,数仓生态体系,数仓人员接触的产品。
二、主要内容
2.1、什么是数据仓库
数据仓库是一种理论知识,通过数仓理论知识结合不同的业务体系而构建的数据生命体系,数据生命体系构建于整个数据平台体系之上业务体系之下。
2.2 、公司为什么搭建数据仓库
首先当一个公司业务体系可以实现商业化变现,需要通过数据来精细化运营,通过数据科学来指导商业决策,需要一套敏捷的数据来决策公司的业务策略,而数据仓库是整个公司体系的中间层,上对接产品分析,下对接平台开发,左对接业财一体,右对接审计工作。
2.3 数据仓库需要哪些组件
- 存储系统:HBase、Kudu、Hdfs
- 即时查询:Impala、Presto
- 计算引擎:Hive、Tez、Spark
- 实时计算:Sparkstreaming、Flink
- Olap: Druid、ClickHouse、Kylin、Doris
- 建模工具: Erwin、powerdesigner、visio、PDMan
- 消息队列MQ:Kafka、ActiveMQ、RabbitMQ、RocketMQ
2.4 离线数仓和实时数仓的差异
离线数仓和实时数仓最大的区别在实时性和逻辑复杂性差异,在架构层次上离线数仓需要有层级关系而实时数仓不需要遵循层级关系。
如:实时数据架构:
Lambda架构&#x