1、DataWorks概念
DataWorks(数据工场,原大数据开发套件)是阿里云重要的PaaS(Platform-as-a-Service)平台产品,提供了数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务和一站式开发管理的界面。
DataWorks基于MaxCompute/EMR/MC-Hologres等大数据计算引擎,提供专业高效、安全可靠的一站式大数据开发和治理的平台,自带阿里巴巴数据中台和数据治理的最佳实践。
计算和存储主要在计算引擎上,任务的调度和开发在DataWork上。
DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。
我们可以使用DataWorks,对数据进行传输、转换和集成等操作,从不同的数据存储引入数据,并进行转化和开发,最后将处理好的数据同步至其它数据系统。
2、数据开发流程
数据开发的流程如下图所示:
- 数据产生:业务系统每天会产生大量结构化的数据,存储在业务系统所对应的数据库中,包括MySQL、Oracle和RDS等类型。
- 数据收集与存储:您需要同步不同业务系统的数据至MaxCompute中,方可通过MaxCompute的海量数据存储与处理能力分析已有的数据。DataWorks提供数据集成服务,可以支持多种数据源类型,根据预设的调度周期同步业务系统的数据至MaxCompute。
- 数据分析与处理:完成数据的同步后,可以对MaxCompute中的数据进行加工(MaxCompute SQL、MaxCompute MR)、分析与挖掘(数据分析、数据挖掘)等处理,从而发现其价值。
- 数据提取:分析与处理后的结果数据,需要同步导出至业务系统,以供业务人员使用其分析的价值。
- 数据展现与分享:数据提取成功后,可以通过报表、地理信息系统等多种展现方式,展示与分享大数据分析、处理后的成果。
3、任务调度
D
Dataworks提供日千万级大规模周期性任务调度服务,支持顺序/循环/分支/跨地域依赖、节点上下文传参。
- 全面托管的调度
- DataWorks提供强大的调度功能。(详情:https://www.alibabacloud.com/help/zh/doc-detail/137546.htm?spm=a2c63.p38356.879954.11.6c744f7cMqWfh1#concept-dlk-2lq-p2b)
- 支持根据时间、依赖关系,进行任务触发的机制。
- 支持每日千万级别的任务,根据DAG关系准确、准时地运行。
- 支持分钟、小时、天、周和月多种调度周期配置。
- 完全托管的服务,无需关心调度的服务器资源问题。
- 提供隔离功能,确保不同租户之间的任务不会相互影响。
- 支持根据时间、依赖关系,进行任务触发的机制。