阿里云大数据平台DataWorks(原DataX)

核心功能

数据集成

离线/实时数据同步

复杂网络环境下,对丰富异构类型数据源高效稳定的移动和同步能力

数据开发

对MaxCompute中的数据进行加工 (SQL,UTF,Graph,MR)、分析与发掘(数据分析、数据挖掘)等处理从而发现其价值

数据应用

对MaxCompute数据加工处理后,应用各种场景,如数据提取、数据交互、数据报表、数据分析

数据服务

提供为企业搭建统一的数据服务总线,帮助企业统一管理对内外的API服务。提供快速将数据库表生成API能力,同时支持快速注册现有API至数据服务平台,进行统一管理和发布。

数据治理

多种数据处理视角下的数据治理流程与工具引导,满足数据生产、数据使用、数据管理场景下的主要数据治理需求,如数据质量、数据地图、安全中心、数据保护伞。

任务运维

各种数据处理任务的发布、监控、运维

基本概念(术语)

计算引擎

DataWorks支持多种计算和存储引擎,包括:

1) 离线计算MaxCompute(最常见)、

2) 开源大数据引擎E-MapReduce、

3) 实时计算(基于Flink)、

4) 机器学习PAI、

5) 图计算服务Graph Compute、

6) Hologres交互式服务

7)ElastickSearch交互式分析&搜索引擎

8)AnalyticDB实时分析库

9)支持用户自定义计算和存储引擎

工作空间

1) 工作空间是DataWorks最大的组织对象,是进行多组织隔离和访问控制的主要边界;

2)也是用户管理表(Table)资源(Resource)、自定义函数(UDF)、节点(Node)、工作流(WorkFlow)、权限等基本单元。

3)在大数据开发平台中,一个DataWorks项目空间对应绑定一个或多个MaxCompute Project[d多个还是指标准模式下的2个?]。

4)管理任务、成员、角色和权限的基本单元,可以加入成员到工作空间中,分配各种角色,实现多角色协同工作。

5)一个工作空间支持绑定MaxCompute MapReduce等各种计算引擎实例,绑定引擎实例后就可以在这个空间开发和调度引擎任务了。

6)若工作空间设置为标准模式,则包含两个MaxCompute实例,一个用于开发,一个用于生产;若设置为普通模式则只有一个MaxCompute实例。

任务

1 任务是对数据执行的操作。

2 一个任务有0个或0个以上的数据表(数据集)作为输入,生成一个或多个数据表(数据集)作为输出。

3 任务主要分类

1)节点任务(Node Task)

2)工作流任务(Flow Task)

3)内部节点(inner Node),用来构建工作流任务的节点

工作流任务和内部节点是1.0版本的概念,2.0也仍然沿用

实例

1)实例是某个任务在某个时刻执行的一个快照。

2)调度系统中的任务经过调度系统手动触发执行后都会形成一个实例。

3)实例会有运行状态、运行时间、运行日志等信息

业务流程

1 第一种解释(没咋看懂)

1) 业务流程是抽象出来的一个概念,从业务视角组织代码开发,提供任务管理的效率。

2) 支持基于任务类型的代码组织方式,支持多级子目录。

3) 业务流程支持从业务视角查看整体业务流程,可以进行优化,从业务视角来组织。

4) 支持从业务流程来组织、发布和运维

5) Dataworks提供了业务流程看板,帮助高效开发。

2 第二种解释(也没咋看懂)

针对业务实体抽象出了业务流程概念,能够以业务视角组织代码开发,提升任务管理效率。一个业务流程可以被多个解决方案服用。支持多级子目录(4级)、可按业务流程组织、发布、提供基于任务类型的组织方式。

解决方案

解决方案是自定义组合一些业务流程。可以包含多个业务流程,解决方案之间可复用相同的业务流程。

组织完成的解决方案包含各类节点,这样的体验就变得友好了

组件

1)通用SQL逻辑抽象

2)是一种带有多个输入参数和输出参数的SQL代码过程模板,目的提高代码的复用性。

3)通常SQL代码的处理过程一般是引入一个或多个数据源,通过过滤、连接、聚合等操作加工出新的业务需要的目标表。将SQL中通用逻辑抽象成组件,提升代码复用性。

输出名称

每个任务(Task)输出点的名称,他是在单个租户(阿里云账号)内设置依赖关系时,用于连接上下游两个任务(Task)的虚拟实体。

当在设置某任务与其它任务形成上下游依赖关系时,必须根据输出名称(而不是根据节点名称或ID)来完成设置,设置完后该输出名称也同时作为下游任务的输入名称。

可以参考如下图示:

脚本开发

1)脚本开发是提供给数据分析使用的一个代码存储空间。

2)脚本开发的代码无法发布到调度系统,无法进行调度参数配置,仅可进行部分数据查询分析工作。

提交

1)是指开发的节点任务、业务流程从DataWorks开发环境发布至调度系统的过程。

2)提交完成后响应的代码、调度配置全部合并到调度系统中,调度系统根据相关配置进行调度操作

参考:阿里云大数据分析师ACP认证22--阿里云大数据平台Dat是aWorks简介

阿里云大数据分析师ACP认证22--阿里云大数t据平台DataWorks简介_哔哩哔哩_bilibili

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值