阿里云大数据ACP(一)大数据开发平台 DataWorks

一、DataWorks 简介

DataWorks(数据工场,原大数据开发套件)是阿里云重要的PaaS平台产品,提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。

DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。DataWorks提供全链路智能大数据及AI开发和治理服务。

在这里插入图片描述

1.1 DataWorks 的功能概述

全面托管的调度

  • DataWorks提供强大的调度功能,详情请参见调度配置。
    • 支持根据时间、依赖关系,进行任务触发的机制。详情请参见时间属性和依赖关系。
    • 支持每日千万级别的任务,根据DAG关系准确、准时地运行。
    • 支持分钟、小时、天、周和月多种调度周期配置。
  • 完全托管的服务,无需关心调度的服务器资源问题。
  • 提供隔离功能,确保不同租户之间的任务不会相互影响。

DataWorks支持离线同步、Shell、ODPS SQL、ODPS MR等多种节点类型,通过节点之间的相互依赖,对复杂的数据进行分析处理。

  • 数据转化:依托MaxCompute强大的能力,保证了大数据的分析处理性能。
  • 数据同步:依托DataWorks中数据集成的强力支撑,支持超过20种数据源,为您提供稳定高效的数据传输功能。

可视化开发

  • DataWorks提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,简单拖拽和开发,即可完成复杂的数据分析任务。只要有浏览器有网络,您即可随时随地进行开发工作。

监控告警

  • 运维中心提供可视化的任务监控管理工具,支持以DAG图的形式展示任务运行时的全局情况,详情请参见运维中心。

1.2 DataWorks 产品特点

在这里插入图片描述

1.3 DataWorks 产品优势

在这里插入图片描述

1.4 应用场景 (助力企业搭建大数据信息平台)

在这里插入图片描述

二、DataWorks 基本概念

2.1 组织与项目空间

在这里插入图片描述

2.2 任务(Task)

在这里插入图片描述

2.3 工作流、节点、依赖关系

在这里插入图片描述

2.4 任务(Task)类别

在这里插入图片描述

2.5 实例(Instance)

在这里插入图片描述
说明:在阿里云大数据开发平台中,节点任务在执行时会被实例化,并以MaxCompute 实例的形式存在。实例会经历未运行、等待时间/等待资源、运行中,成功/失败几个状态。

2.6 资源与函数

在这里插入图片描述
说明:资源与函数都是 MaxCompute 的概念。

三、DataWorks 功能架构

在这里插入图片描述

3.1 功能模块

在这里插入图片描述

3.2 组织管理

在这里插入图片描述

3.3 项目管理

在这里插入图片描述

3.4 数据开发

在这里插入图片描述

3.5 数据管理

在这里插入图片描述

3.6 运维中心

在这里插入图片描述

四、DataWorks 角色隔离

4.1 DataWorks 中的角色

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

五、DataWorks 开发流程

在这里插入图片描述
在这里插入图片描述

5.1 新建项目空间

在这里插入图片描述

5.2 添加组织成员+项目成员

在这里插入图片描述

5.3 数据开发

在这里插入图片描述

5.4 数据开发流程

在这里插入图片描述

5.5 数据输入

在这里插入图片描述

5.6 数据加工

在这里插入图片描述

5.7 数据输出

在这里插入图片描述

5.8 代码发布

在这里插入图片描述

5.9 生产调度

在这里插入图片描述

5.10 生产运维

在这里插入图片描述

六、DataWorks 数据开发

6.1 数据开发总览

在这里插入图片描述
四种运行方式:
在这里插入图片描述
在这里插入图片描述
数据开发模块中除了组织管理员权限外,其余角色包括:项目管理员、开发、运维、部署和访客。

6.2 任务开发

在这里插入图片描述

6.3 任务类型

在这里插入图片描述

6.4 脚本开发

在这里插入图片描述

6.5 函数管理

在这里插入图片描述

6.6 发布管理

在这里插入图片描述

6.7 导入本地文件

在这里插入图片描述

七、DataWorks 调度配置

7.1 调度周期配置

在这里插入图片描述

7.2 调度参数配置

在这里插入图片描述

7.3 DataWorks 中的参数功能

在这里插入图片描述
调度参数获取
在这里插入图片描述

7.4 调度依赖关系

在这里插入图片描述

7.5 跨周期依赖

在这里插入图片描述
在这里插入图片描述

八、数据管理

8.1 数据管理

在这里插入图片描述

8.2 全局概览

在这里插入图片描述

8.3 数据表的管理操作

在这里插入图片描述
注意:数据管理模块中的表存储信息是离线计算得出的,默认是一天同步一次这个信息,是非实时同步,所以与真实信息不一致。

8.4 数据权限

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

九、DataWorks 运维管理

9.1 运维管理

在这里插入图片描述

9.2 运维有关的权限

在这里插入图片描述

9.3 运维概览

在这里插入图片描述

9.4 手动任务 & 周期任务

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

9.5 监控报警

在这里插入图片描述

十、DataWorks 项目管理

10.1 项目管理综述

在这里插入图片描述

10.2 项目配置

在这里插入图片描述

10.3 项目成员管理

在这里插入图片描述

10.4 调度资源管理

在这里插入图片描述
默认调度资源:默认调度资源为标志位,标记当前调度资源是否为默认调度资源。调度任务默认向该资源组提交惹任务,一个项目内有且只有一个默认调度资源。

在这里插入图片描述

阿里大数据ACP题库是阿里巴巴公司推出的一套专业的数据分析和大数据技术题库。ACP全称是Alibaba Certified Professional,是阿里巴巴公司颁发的一种认证,用于验证专业人士在数据分析和大数据技术领域的知识和能力。 阿里大数据ACP题库覆盖了大数据处理、数据分析、数据仓库、数据挖掘等多个领域的知识。题库包括了理论题、实操题、案例分析等多种形式,通过解答这些题目可以帮助学习者深入理解相关的知识和技术,并提升实际操作能力。 ACP题库的内容丰富全面,注重实践应用。题目从基础入手,逐步深入,涵盖了大数据技术栈中的各个环节和工具,例如Hadoop、Spark、Hive、Flink等。学习者可以通过学习ACP题库,系统学习和掌握大数据处理和数据分析的核心知识,了解大数据技术的最新发展和应用场景。 阿里大数据ACP题库的优点在于由阿里巴巴公司进行维护和更新,准确反映了业界最新的技术趋势和应用场景。通过学习和掌握ACP题库中的知识,可以提升个人在数据分析和大数据技术领域的竞争力,为自己的职业发展铺平道路。同时,通过阿里大数据ACP认证,也可以证明自己在这一领域的专业水平,为就业提供有力支持。 总的来说,阿里大数据ACP题库是一个有益于数据分析和大数据技术学习的权威资源,通过学习ACP题库中的知识,可以帮助人们提升数据分析和大数据技术的能力,增加就业竞争力,促进自身的职业发展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值