阿里云DataWorks

一、概述

DataWorks(数据工场,原大数据开发套件)是阿里云重要的PaaS(Platform-as-a-Service)平台产品,为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。

 

DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。DataWorks为您提供全链路智能大数据及AI开发和治理服务。

 

您可以使用DataWorks,对数据进行传输、转换和集成等操作,从不同的数据存储引入数据,并进行转化和开发,最后将处理好的数据同步至其它数据系统。

 

  • 全面托管的调度

DataWorks提供强大的调度功能,详情请参见调度配置。

支持根据时间、依赖关系,进行任务触发的机制。详情请参见配置时间属性和依赖关系。

支持每日千万级别的任务,根据DAG关系准确、准时地运行。

支持分钟、小时、天、周和月多种调度周期配置。

完全托管的服务,无需关心调度的服务器资源问题。

提供隔离功能,确保不同租户之间的任务不会相互影响。

DataWorks支持离线同步、Shell、ODPS SQL、ODPS MR等多种节点类型,通过节点之间的相互依赖,对复杂的数据进行分析处理。

数据转化:依托MaxCompute强大的能力,保证了大数据的分析处理性能。

数据同步:依托DataWorks中数据集成的强力支撑,支持超过20种数据源,为您提供稳定高效的数据传输功能。详情请参见数据集成和支持的数据源与读写插件。

 

  • 可视化开发

DataWorks提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,简单拖拽和开发,即可完成复杂的数据分析任务。详情请参见界面功能点介绍。

只要有浏览器有网络,您即可随时随地进行开发工作。

 

  • 监控告警

运维中心提供可视化的任务监控管理工具,支持以DAG图的形式展示任务运行时的全局情况,详情请参见运维中心。

您可以方便地配置各类报警方式,任务发生错误可及时通知相关人员,保证业务正常运行。详情请参见智能监控。

 

  • 与MaxCompute的关系

DataWorks就是基于MaxCompute的PaaS平台,可以简单理解为DataWorks是一个web形式的开发管理工具,而MaxCompute作为存储计算引擎,扮演了IaaS层支撑的角色。我们可以通过DataWorks来用MaxCompute。

 

MaxCompute 和DataWorks一起向用户提供完善的ETL和数仓管理能力,以及SQL、MR、Graph等多种经典的分布式计算模型,能够更快速地解决用户海量数据计算问题,有效降低企业成本,保障数据安全。

Maxcompute中的盘古就相当于Hadoop中的HDFS;

Maxcompute中伏羲就相当于Hadoop中的Yarn;

Maxcompute中MaxCompute Engine 就相当于Hadoop中的MapReduce。

 

二、使用流程

作为一站式数据工场,可以通过拖拽图标的方式部署工作流程,并很方便地进行任务调度

  • 数据采集

数据采集组件可以完成多种数据源的采集连通,有向导模式和脚本模式

  • 计算引擎

工场提供多种计算引擎,如hive,spark,mr等

  • 可视化运维

提供上下游关系梳理、运行日志、补数据等完善的任务运维。

  • 数据资产管理

包括元数据管理、数据血缘、数据资产大图等。

  • 数据质量

数据质量探查、监控、校验和评分体系。

  • 数据安全

数据权限管理,数据的分级达标、脱敏、以及数据的审计。

  • 其他

也可以很方便地配置BI可视化和机器学习算法


总结

Dataworks作为一款易用的大数据平台级产品,特别适合中小企业低成本快速建立大数据业务!

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值