实时数据开发-CSDN博客

本文链接：https://blog.csdn.net/baifanwudi/article/details/137691068

本文详细介绍了实时数据开发的七个关键步骤，包括需求分析、选择Source、Sink和Dim表的中间件，任务创建与开发，参数配置，任务发布流程，以及实时运维注意事项。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

笔者并没有专业的实时数仓的开发经验，只是从别人经验和网上资料综合整理而来，仅供参考。

实时数据开发步骤：1、需求分析；2、确定Source、Sink、Dim；3、任务创建；4、任务开发和修改；5、参数与资源配置；6、任务发布；7、任务运维

根据业务需求评估复杂结果，有一些例子：

中间件包含Source(源)、Sink(目标端)、Dim维表这三个。另外明确中间件，还需要尽量避免跨机房读写，包含source实时流、Sink端数据库/实时流、dim表中间件以及Flink集群所在位置
2.1 Source端
主流source端分类

中间件	特性	用途
TimeTunnel	消息队列，处理数据量大；默认存储三天，shard人工调整	实时公共层，复用性(ETL复杂逻辑收口)
MetaQ	存储默认1.5天，shard分片数自动调整	承接服务端变更消息
Holo Binlog	基于实时数仓holo作为明细表的选型	-

2.2 Sink端选型

中间件	特性	用途
TimeTunnel (TT)	默认存储三天，shard人工调整	实时公共层，复用性(ETL复杂逻辑收口)
Lindom	面向列族的NoSQL数据库，海量数据KV高效查询支持点查+特定场景范围查询	大屏场景如商家、或者主播视角
Holo Binlog	支持海量数据实时写入、实时更新、实时分析，支持PB级数据多维分析（OLAP）与即席分析（Ad Hoc）	实时公共层；复用性（ETL复杂逻辑收口）；方便排查问题；对接B报表系统；生态：Holo主要服务于小二，无缝对接问大部分场景
Adb	支持高吞吐的数据实时增删改、低延时的实时分析和复杂ETL	用途同Holo，生态：ADB服务于外部企业，需要更高的稳定因而成本也会更高一些
IGraph	在线图存储系统；数据存在主key，查询围绕key展开；查询rt有高要求；数据一致性、持久性要求不高、更新生效时间要求不高	算法实时特征