原创|实时数仓实战项目-第一节

17 篇文章 29 订阅 ¥39.90 ¥99.00
本文介绍了实时数仓在业务中的应用场景,包括实时报表、指标监控、模型训练和数据分析。强调了理解业务需求的重要性,并探讨了不同实时计算架构的优缺点,推荐使用Starrocks/Doris以简化架构并提升性能。文章预告了后续将讨论实时数仓的分层策略及Flink计算场景。
摘要由CSDN通过智能技术生成

863a266a58f8c679448aee6b39c5aae6.png

70ac022a6f92542c3b5f2f7521a89d01.png

谢绝广告,从我做起

为了营造良好的学习环境,本公众号谢绝一切教育媒体的广告投放!!!

a2ffc257d6d56d9857eae877e856855e.png


14c9a7dc049ad2065922112ccab8a2e0.png

业务需求场景介绍

5dcc2284e1faa5f0a73cf19b01d9cdad.png

第一,实时报表数据。

3d8c356fcf421d2260c71b5ad10c6f2a.png

想要搭建好的实时数仓,需要你足够的了解业务,知道业务想看什么数据,可能会看什么数据,基于业务期望目标搭建基础数仓,这样可以让你的基础数据可用性比较高,同时还可以提高数据开发效率,节省存储和计算资源,任何数仓方法论如果不在了解业务的基础上搭建,都是掩耳盗铃。

第二,实时指标监控。

7a8da6d6bd018502f40a7fcca94e7820.png

实时数仓搭建,其实就是帮助业务实时做数据决策,同时给工程、算法、运营、策略同学提供监控告警功能,发现异常的现在指标,及时暴露出来,尤其是工程和算法模型上线的时候,他们在灰度发布的时候,急需要线上的实时指标来告诉他们要不要继续发布;业务大促营销的时候,比如双十一和618电商狂欢节,都是跟金钱相关的交易数据,需要实时指标告诉业务哪些指标出现了波动,是否需要联系研发同学进行线上排查。

第三,实时模型训练。

2c72cbe5a7f28f21491d0e7912064484.png

为什么算法的同学薪资高,我举个广告投放场景的例子,好的模型可以让你的投放花费节省50%+,如果业务一天花费2000万,好的模型就可以帮着业务节省1000万广告费用,说实话算法同学那点薪资真的不算多,当然算法也需要依托工程和数据同学进行协作,所以我们需要给算法同学提供准确低延迟的实时数据,帮着他们进行模型训练,这就需要你思考如何保证你的数据的sla,如果你的sla满足不了算法同学的要求,会给线上模型训练带来影响,你就需要做casestudy,也会影响你的年度绩效考核,实时计算既有业务收益也有风险挑战。

第四,实时数据分析。

6d8fa47032c9cf7ecd8e14684c7adab7.png

虽然我们开发了很多线上的实时指标,但也无法满足业务的临时需求,比如业务突然想看某项指标数据,比如:"某个品类商品今天下了多少订单,这些订单在城市的分布情况如何 ? 商品供给是否充足? 帮着他们做营销决策",这就需要你临时帮着业务加工实时数据,你的实时数仓应该具备实现快速olap的能力;还有一种情况就是工程组线上发现异常bug,需要数据同学帮着抽点明细数据协助定位问题,这就需要你的实时数仓还要具备明细数据查询的能力。


b18e3af12a4ca4f70d5b10bafeae99d0.png

架构介绍

3edd559920d90f38f2b628896b078e8f.png

今天架构我就简单介绍,后边我再深入给大家剖析为啥这么高,还有一些细节性的我还是希望大家可以微信咨询我单独聊,因为如果我讲的特别细,我要写十万字估计都写不清楚。

9866abcd27aa7c5634d21ec9ebef4cf5.png

上面👆这个是业界比较复杂的技术架构方案,计算组件一大堆,让你学不完,也内卷不动。

c0ae7560ee69d8d7c62977217bf95ffd.png

上面👆新的技术方案也就是starrocks/doris可以做其他olap引擎可以干的事情。

6d30ae6b0c1718f05b668847567744b9.png

上面👆这个架构,其实也是我比较认可的方案,因为好多业务场景如果你用flink做实时计算是多次一举的,比如实时两个流join,完全可以在starrocks/doris内做实时join,这样可以节省一个flink实时任务,starrocks/doris的localjoin性能完全可以抗住千万级的实时数据join,满足业务的实时报表需求,同时也可以做实时数仓etl数据分层。目前我们组内的业务场景都是秉承可以用doris替代flink的,我们都尽量在doris内部做。

今天我先讲到这里,如果大家看不明白的, 建议直接微信找我聊聊,我正好可以了解一下你们公司的业务场景和技术架构,咱们一起交流学习。

e123a7389e64ed524f427c4aca7aff09.png

想要交流实时数仓的同学可以加我微信

fb1ef36925972997cd21d670c8b2accf.gif

0ca46b428927c580e1d6c7083dbbe80c.png


c2f7d08a4ed48f8b36552596b2bec1b0.png

预告

76bc9b0a8fe2e6d4883e24637c5eecca.png

下期讲一下实时数仓要不要做分层,什么时候做,什么时候不需要做,如何根据业务制定分层方案,我们要不要学习离线数仓的方法论?

实时数仓常用的flink计算场景我也会给大家一一讲解,敬请关注千亿级的实时数仓架构方案!!!!

大家有问题可以留言,自己的想法都可以留言交流,想让我分享什么的内容也可以在文末留言。

f86bce10e9405b58c34cf5d5e81887c6.png

分享

75ba2749e867d8f87035c1ceecc06176.png

收藏

3aa58a839b5d70b4de5b73e670afce44.png

点赞

9e0c0641da7055d8c6c12df05a915fec.png

在看

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值