谈笑间学会数仓-技术架构设计
1、前言
-
为何要谈数据仓库技术架构设计呢?
技术架构设计是建设数仓的必备因素之一,分层架构为我们捋清了数据的架构及分层规范,并没有真正落地到具体的实施?
有人说技术架构有什么好设计的?直接开整呗?
事实上并不是如此,成功始于计划,终于变化~
总而言之,言而总之,数仓设计是需要有技术方案来落地的。那么主要包含哪些呢?
离线、实时、离线+实时呗
2、离线技术架构
- 首先我们来看一波架构图吧
- 小结
- 离线技术架构无非包括以下几块内容的技术选型
- 数据采集:datax、sqoop、flume
- 数据存储:HDFS、Hive
- 数据计算:MapReduce、sparksql、spark、hive、kylin、presto、impala
- 任务调度:Oozie、crontab、azkaban
- 离线技术架构无非包括以下几块内容的技术选型