大数据实时广告系统架构
文章目录
1 日志采集
通过日志订阅、用户系统接口返回等采集/接受数据
2 kafka 削峰填谷
尽量通过随机/轮询方式设计 Topic, 把关好数据源的数据倾斜
3 实时计算部分
3.1 实时日志拼接、热点数据计算
根据业务设计窗口,组合业务日志。
3.2 Flink 关联日志
未关联日志通过 retry 进行关联。
3.3 Flink 实时计算
根据业务计算实时指标估算。
3.4 吐出数据到 MPP
吐出到 MPP 给予估值展现
4 离线验证部分
4.1 Flink 吐出到 Hive
消费数据到 Hive STG 层
4.2 Hive 合并计算日志
T + 1 任务合并日志,日志存放周期 3 - 7 天
4.3 T+1 计算指标
T +1 建设数仓,ODS - DWD - ADS - DW
4.4 吐出指标到 MPP 修复昨日数据
更新指标数据
5 BI 展现
实时计算 / 离线修复系统架构图
待上传