谢绝广告,从我做起
为了营造良好的学习环境,本公众号谢绝一切教育媒体的广告投放!!!
业务需求场景介绍
第一,实时报表数据。
想要搭建好的实时数仓,需要你足够的了解业务,知道业务想看什么数据,可能会看什么数据,基于业务期望目标搭建基础数仓,这样可以让你的基础数据可用性比较高,同时还可以提高数据开发效率,节省存储和计算资源,任何数仓方法论如果不在了解业务的基础上搭建,都是掩耳盗铃。
第二,实时指标监控。
实时数仓搭建,其实就是帮助业务实时做数据决策,同时给工程、算法、运营、策略同学提供监控告警功能,发现异常的现在指标,及时暴露出来,尤其是工程和算法模型上线的时候,他们在灰度发布的时候,急需要线上的实时指标来告诉他们要不要继续发布;业务大促营销的时候,比如双十一和618电商狂欢节,都是跟金钱相关的交易数据,需要实时指标告诉业务哪些指标出现了波动,是否需要联系研发同学进行线上排查。
第三,实时模型训练。
为什么算法的同学薪资高,我举个广告投放场景的例子,好的模型可以让你的投放花费节省50%+,如果业务一天花费2000万,好的模型就可以帮着业务节省1000万广告费用,说实话算法同学那点薪资真的不算多,当然算法也需要依托工程和数据同学进行协作,所以我们需要给算法同学提供准确低延迟的实时数据,帮着他们进行模型训练,这就需要你思考如何保证你的数据的sla,如果你的sla满足不了算法同学的要求,会给线上模型训练带来影响,你就需要做casestudy,也会影响你的年度绩效考核,实时计算既有业务收益也有风险挑战。
第四,实时数据分析。
虽然我们开发了很多线上的实时指标,但也无法满足业务的临时需求,比如业务突然想看某项指标数据,比如:"某个品类商品今天下了多少订单,这些订单在城市的分布情况如何 ? 商品供给是否充足? 帮着他们做营销决策",这就需要你临时帮着业务加工实时数据,你的实时数仓应该具备实现快速olap的能力;还有一种情况就是工程组线上发现异常bug,需要数据同学帮着抽点明细数据协助定位问题,这就需要你的实时数仓还要具备明细数据查询的能力。
架构介绍
今天架构我就简单介绍,后边我再深入给大家剖析为啥这么高,还有一些细节性的我还是希望大家可以微信咨询我单独聊,因为如果我讲的特别细,我要写十万字估计都写不清楚。
上面👆这个是业界比较复杂的技术架构方案,计算组件一大堆,让你学不完,也内卷不动。
上面👆新的技术方案也就是starrocks/doris可以做其他olap引擎可以干的事情。
上面👆这个架构,其实也是我比较认可的方案,因为好多业务场景如果你用flink做实时计算是多次一举的,比如实时两个流join,完全可以在starrocks/doris内做实时join,这样可以节省一个flink实时任务,starrocks/doris的localjoin性能完全可以抗住千万级的实时数据join,满足业务的实时报表需求,同时也可以做实时数仓etl数据分层。目前我们组内的业务场景都是秉承可以用doris替代flink的,我们都尽量在doris内部做。
今天我先讲到这里,如果大家看不明白的, 建议直接微信找我聊聊,我正好可以了解一下你们公司的业务场景和技术架构,咱们一起交流学习。
想要交流实时数仓的同学可以加我微信
预告
下期讲一下实时数仓要不要做分层,什么时候做,什么时候不需要做,如何根据业务制定分层方案,我们要不要学习离线数仓的方法论?
实时数仓常用的flink计算场景我也会给大家一一讲解,敬请关注千亿级的实时数仓架构方案!!!!
大家有问题可以留言,自己的想法都可以留言交流,想让我分享什么的内容也可以在文末留言。
分享
收藏
点赞
在看