实时数据仓库
1、电商实时数仓分层介绍
1.1 普通实时计算和实时数据仓库比较
普通的实时计算优先考虑时效性,所以从数据源采集经过实时计算直接得到结果。时效性好,但是弊端是中间结果没有沉淀下来,复用性差。
实时数仓基于一定的数据仓库理念,对数据处理流程进行规划、分层,目的是提高数据的复用性。
1.2 实时数据仓库,项目分层
ods:原始数据,日志和业务数据(数据存储在kafka)->实时计算。
dwd:根据数据对象为单位进行分流(侧输出流),比如订单、页面访问。
事实表放到dwd里面(kafka),维度表(dim)的数据放在hbase。hbase的维度数据。事实表和维度表进行join。 实时表查询userinfo维度表id,