产品概述
DataWorks是阿里云数加重要的PaaS平台产品,它提供数据集成、数据开发、数据管理、数据治理等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。基于MaxCompute作为核心的计算、存储引擎,提供了海量数据的离线加工分析、数据挖掘的能力。
通过DataWorks,可对数据进行数据传输、数据转换等相关操作,从不同的数据存储引入数据,对数据进行转化处理,最后将数据提取到其他数据系统。
功能概述:
1、全面托管的调度
支持数据同步、Shell、MaxCompute SQL、MaxCompute MR等多种任务类型,通过任务之间的相互依赖完成复杂的数据分析处理。
2、支持多种任务类型
3、可视化开发
4、监控告警
基本概念
1、任务
示例:
使用数据同步节点任务将数据从RDS复制到MaxCompute。
使用MaxCompute SQL节点任务运行MaxCompute SQL来进行数据的转换。
使用工作流任务,通过内部几个不同的SQL内部节点完成一系列的数据转换。
2、任务类型
3、脚本开发
提供给数据分析使用的一个代码存储空间,脚本开发的代码无法发布到调度系统,无法进行调度参数配置,仅可以进行一些数据查询分析的工作。
数据开发流程
说明:
1、数据产生
业务系统每天会产生大量结构化的数据,存储在对应数据库中。
2、数据收集与存储
利用MaxCompute来存储分析这些从业务库同步过来的数据。
3、数据分析与处理
对MaxCompute上的数据进行加工(MaxCompute Sql、MaxCompute MR),分析(数据分析)和挖掘(数据挖掘),从而发现其价值。
4、数据提取
分析处理后的结果,需要同步导出至业务系统,共业务人员使用分析其价值。
5、数据展现和分享
可通过报表、地理信息系统等多种展现方式分享成果。
产品使用步骤
1、建表并上传数据
上传方法:
1、本地数据上传(txt或csv格式)
2、创建数据同步任务:RDS等多种数据源中的各种方式适用。
3、使用Tunnel命令上传文件
2、创建业务流程
(前提条件:工作空间上已经有业务表和数据,以及结果表。)业务流程为了方便配置各个表的依赖关系,设计步骤和顺序。(不是导入数据)
主要介绍如何在业务流程中创建结点并配置依赖关系,以方便的设计展现数据分析的步骤和顺序。并
利用数据开发功能对工作空间的数据进一步分析计算。通过可视化拖拽来完成节点间的依赖设置,以操作业务流程方式实现对数据的处理和相互依赖。
虚节点任务、ODPS sql任务、ODPS MR任务、Shell任务、SQL组件节点、数据同步任务(数据集成,收费功能)
业务流程介绍:
业务流程是有意识的按照业务种类将相关的不同类型的节点任务组织在一起,这样的结构能够更好地以业务为单元进行代码的开发。
组成:
①数据集成
②数据开发
③表
④资源
⑤函数
3、创建同步任务
通过数据集成功能:将MaxCompute中的数据导出到MySQL数据源中。
4、设置周期和依赖
可将同步任务等 进行周期调度设置。
参考资料:DataWorks
推荐一个公众号,免费领架构师学习资料,每周更新优质文章,能学到很多。