一、数仓概述
1.1 数仓基本概念
-
电商
-
业务
-
-
实时
-
离线
-
批处理
-
在处理数据前,数据是固定的,在处理的过程中,数据不会发生变化
-
数据量大
-
处理时间长
-
T+1
-
-
实时
-
流处理
-
在处理数据前,数据是不固定的,在处理的过程中,数据源源不断的的进来
-
数据量小
-
处理时间短
-
T+0
-
-
-
数仓
-
采集-存储-分析计算
-
1.2 离线数仓架构
1.3 实时数仓架构
不管是实时还是离线,数据来源都是一样的,分别是前端埋点产生的用户行为数据,以及业务系统产生的业务数据。
如果是实时数仓,经过ods采集之后,数据已经进入kafaka主题,这里主要有两个主题,一个是topic-db,一个是topic-log.