前言
随着中通快递(欢迎进入🔗中通快递官网了解更多资讯)业务量飞速发展,企业相关业务系统产生的业务数据体量也逐倍增长,中通生态系统日益丰富,业务系统数据多样化,业务部门常用数据存储oracle与mysql数据库已无法满足日常庞大数据体量的数据计算以及相关政策补贴费用计费统计,为了响应公司提出的“数字化”转型重要方针,我们数仓部门与业务系统部门展开了数据计算与业务系统相融合的探索和实践,那么,我们是如何进行数据计算方案选型和实施的呢?hadoop离线计算批处理还是实时消费消息flink流式计算?这让数据开发变得有趣起来。
图:近五年中通业务量增势图
在与中通各业务部门合作过程中,我们总结沉淀出了一套大数据融合计算方案,核心计算系统目前由离线计算和乐高实时调用计算两部分组成,下面我们就一起来看下如何合理使用二者进行数据开发吧!
图:传统业务系统计算vs大数据融合业务系统计算
一、离线调度计算介绍以及使用场景
离线调度系统是我们整个大数据体系的指挥中心,负责合理调配资源进行数据计算,中通离线计算调度系统,可以根根据时间,依赖,任务优先级,资源等条件调度任务;能处理任务的多种依赖关系,包括时间依赖,任务上下游依赖,自身依赖等;可以执行多种任务类型,如MapReduce,hive,presto,spark以及shell,python等;调度系统根据用户的配置信息完成复杂的 DAG 任务和定时任务。(包括数据数据抽取、转换和加载)。
图:数据开发流程图
离线计算优点:1.计算资源消耗稳定可控;2.数据量大计算统一逻辑跑批效率高;缺点:1.无法满足业务配置调整实时反馈计算结果;2. 复杂配置进行逻辑转换计算不太友好。
目前,离线计算帮助我们解决了哪些问题呢?结合数仓知识理论,我们可以帮助公司解决很多数据计算问题,赋能公司业务系统,如下是我们数仓使用离线调度平台系统结合业务一些常规工作内容:
1.基础业务数据的入仓(解决数据孤岛问题,各业务系统产生数据可按需同步到数仓使用)
2.提炼可复用业务模型宽表进行数据分析挖掘(模型宽表可以提高计算和分析效率,减少冗余计算)
3.各业务域统计报表输出给领导层决策提供数据支撑(数据驾驶舱)
4.赋能业务系统进行复杂逻辑运算(复杂业务逻辑计算数据推送至业务系统辅助业务系统,助力公司更好系统运营)
5.数据质量相关治理(反馈上游业务系统数据问题进行整改)
图:数据仓库架构
二、乐高平台计算介绍以及使用场景
乐高系统是中通大数据平台针对工作流任务编排调度的平台&#x