实时数仓DWS层的定位

实时数仓DWS层的定位

  1. 轻度聚合,因为DWS层要应对很多实时查询,如果是完全的明细那么查询的压力是非常大的。
  2. 将更多的实时数据以主题的方式组合起来便于管理,同时也能减少维度查询的次数。

1. DWS层:访客主题宽表

设计一张DWS层的表其实就两件事:维度和度量(事实数据)

  • 度量包括PV、UV、跳出次数、连续访问页面数、连续访问时长
  • 维度包括在分析中比较重要的几个字段:渠道、地区、版本、新老用户进行聚合
需求分析与思路
  1. 接收各个明细数据,变为数据流
  2. 把数据流合并在一起,成为一个相同格式对象的数据流
  3. 对合并的流进行聚合,聚合的时间窗口决定了数据的时效性
  4. 把聚合结果写在数据库中

2.DWS层:商品主题宽表

与访客的dws层的宽表类似,也是把多个事实表的明细数据汇总起来组合成宽表

需求分析与思路

  1. 从Kafka主题中获得数据流
  2. 把Json字符串数据流转换为统一数据对象的数据流
  3. 把统一的数据结构流合并为一个流
  4. 设定事件时间与水位线
  5. 分组、开窗、聚合
  6. 写入ClickHouse
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值