实时数据开发

本文详细介绍了实时数据开发的七个关键步骤,包括需求分析、选择Source、Sink和Dim表的中间件,任务创建与开发,参数配置,任务发布流程,以及实时运维注意事项。
摘要由CSDN通过智能技术生成

笔者并没有专业的实时数仓的开发经验,只是从别人经验和网上资料综合整理而来,仅供参考。

实时数据开发步骤:1、需求分析;2、确定Source、Sink、Dim;3、任务创建;4、任务开发和修改;5、参数与资源配置;6、任务发布;7、任务运维


1、需求分析

根据业务需求评估复杂结果,有一些例子:

场景需求特点实现方案
直播引导成交蓄水引导成交(15d)双流JOIN+维表JOIN
业务实时中间层口径定义+降低成本指标达标+去args
营销活动实时行业1.回刷多;2.累计曲线:指标累计增长流批一体+高性能UDF
直播指标配置平台管理指标+统一运维维度打标+高表转化
实时OLAP分析业务迭代快,固定报表使用频率较低基于Hologres实时数仓开发

2、确定中间件

中间件包含Source(源)、Sink(目标端)、Dim维表这三个。另外明确中间件,还需要尽量避免跨机房读写,包含source实时流、Sink端数据库/实时流、dim表中间件以及Flink集群所在位置
2.1 Source端
主流source端分类

中间件特性用途
TimeTunnel消息队列,处理数据量大;默认存储三天,shard人工调整实时公共层,复用性(ETL复杂逻辑收口)
MetaQ存储默认1.5天,shard分片数自动调整承接服务端变更消息
Holo Binlog基于实时数仓holo作为明细表的选型-

2.2 Sink端选型

中间件特性用途
TimeTunnel (TT)默认存储三天,shard人工调整实时公共层,复用性(ETL复杂逻辑收口)
Lindom面向列族的NoSQL数据库,海量数据KV高效查询支持点查+特定场景范围查询大屏场景如商家、或者主播视角
Holo Binlog支持海量数据实时写入、实时更新、实时分析,支持PB级数据多维分析(OLAP)与即席分析(Ad Hoc)实时公共层;复用性(ETL复杂逻辑收口);方便排查问题;对接B报表系统;生态:Holo主要服务于小二,无缝对接问大部分场景
Adb支持高吞吐的数据实时增删改、低延时的实时分析和复杂ETL用途同Holo,生态:ADB服务于外部企业,需要更高的稳定因而成本也会更高一些
IGraph在线图存储系统;数据存在主key,查询围绕key展开;查询rt有高要求;数据一致性、持久性要求不高、更新生效时间要求不高算法实时特征

2.3 Dim表选型

维表存储选择根据量级/更新频率 建议选型
ODPS量级<5000w/T+1更新
Lindom量级>1000w/实时更新
Hologres如果量级>1000w,使用bhclient方式优化

3、任务创建

保证任务的可读性、可维护性和可扩展性,有助于提高开发效率和代码质量。

4、任务开发

高质量的实时任务开发可大幅提高任务的性能、稳定性与准确性,从而使得任务能够更好地服务于实际业务需求。

5、参数与资源配置

参数与资源配置在实时开发中至关重。

6、任务发布

分为:数据验证、数据回归、发布管控

7、实时运维

日常运维:单任务报警设置、基线保障
大促保障:①促前:容量评估->资源上报-大促资源快上->业务单压->全链路验收(压测/预案);②促中:大促值班保障;③促后:大促资源快下。

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值