java clickhouse_基于Flink+ClickHouse打造轻量级点击流实时数仓

本文介绍了如何结合Flink和ClickHouse构建轻量级点击流实时数仓。通过Flink进行实时ETL和维度关联,使用ClickHouse作为查询与分析的核心,同时利用Hive做数据备份。重点讨论了Flink实时维度关联的注意事项和Flink-ClickHouse Sink的设计策略,以及ClickHouse数据重平衡的方法。
摘要由CSDN通过智能技术生成

点击上方 "zhisheng"关注, 星标或置顶一起成长

前言

Flink和ClickHouse分别是实时计算和(近实时)OLAP领域的翘楚,也是近些年非常火爆的开源框架,很多大厂都在将两者结合使用来构建各种用途的实时平台,效果很好。关于两者的优点就不再赘述,本文来简单介绍笔者团队在点击流实时数仓方面的一点实践经验。

点击流及其维度建模

所谓点击流(click stream),就是指用户访问网站、App等Web前端时在后端留下的轨迹数据,也是流量分析(traffic analysis)和用户行为分析(user behavior analysis)的基础。点击流数据一般以访问日志和埋点日志的形式存储,其特点是量大、维度丰富。以我们一个中等体量的普通电商平台为例,每天产生约200GB左右、数十亿条的原始日志,埋点事件100+个,涉及50+个维度。

按照Kimball的维度建模理论,点击流数仓遵循典型的星形模型,简图如下。

0a0d34c20041a4c64d9fbcbc5fe92177.png

点击流数仓分层设计

点击流实时数仓的分层设计仍然可以借鉴传统数仓的方案,以扁平为上策,尽量减少数据传输中途的延迟。简图如下。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值