记一次数据仓库从0到1的实战

本文记录了一次数据仓库从基于Clickhouse的简单数据库到阿里云ADB的重构过程,包括实施的三个阶段:减轻Clickhouse压力、数据分层与迁移、报表上线与团队调整。在实践中遇到性能、成本和沟通协调等问题,对未来可能重回Clickhouse做了反思,并分享了在数据仓库建设中需要注意的事项。
摘要由CSDN通过智能技术生成

去年进公司的时候,仓库是基于清单数据,用的是clickhouse数据库,并没有进行分层。所有的报表都是基于清单数据的查询,所有的报表sql都非常的复杂。

1.原有的仓库

其实不能说它是仓库,只能是一个数据库,基本上就是利用contrab进行任务调度,每个任务之间隔开一点时间,如果有依赖的话。

出现的问题:由于用户表以及一些事件表经常需要进行清洗,采用的是从一张表到etl完之后再导到原来的表,经常出问题,经常出现丢表的情况,有时候etl过程中还会出现机器失去响应的情况。面临着业务和运营的压力,非常苦逼,基本周末就不用了过了。

基于ck的数据库已经积重难返,所以重新基于aliyun做了一套系统。

2.实施步骤

第一阶段

一开始没办法直接从clickhouse完全剥离,很多数据的口径来源需要重新整理,人员有限,也有新的数据需求需要做,所以还是让clickhouse作为基础的数据源。然后利用datawork作为调度工具,将汇总数据写进阿里云的adb中,减轻clickhouse的压力,为后续步骤腾出梳理口径和数据源的时间。

第二阶段

经过一段时间的业务、代码经验的积累,逐步开始讲clickhouse的数据切换到odps中,根据业务,将数据划分为用户域,用户行为,收入,流量这几大块,每一块分为ods层,dw层,ads层等,做一个比较明显的层级划分。协定好表名,口径,每层做什么成句的汇聚,处理数据差异。这个步骤说起来寥寥几句,但是做起来非常的麻烦跟辛苦。

第三阶段

上线了基于数仓的第一个版本的

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值