商业智能-大数据-后端工作-DATAWORKS(1)-基础介绍


背景:2018年5月份,刚来公司的时候要求写一份大型的数据报告,大概200多页。那时候公司的BI数据仓库还没搭建完善,而且数据ETL仍然使用的是KETTLE工具,只能支撑T+1的更新。更郁闷的是写个算法,结果跑了8个小时

根本无法支撑整个每天产生的GB级别的数据计算量。还有更可怕的是,公司产品分为好几个版本,且放在不同的生产库内,早期的开发很多都离职了且经常是标注不明确,导致大量的脏数据。(还好后期来了几个很优秀百度的开发经理,进行大重构)

由于就职的公司投资方是阿里,所以目前使用的是阿里云的上的大数据工具。实际证明也是非常给力的。之后,去年11月份后和底下的几个助手基本就是996,目的就是在年前把BI的数据仓库搭建完成,并且搭建一套新的数据报表系统,同时更重要的是为数据产品做好支撑。(最终年底之前任务基本完成。同时BI部门8个人,有3个人被评为年度优秀员工。公司整体优秀员工占比是10%,所以感觉非常爽。)

1.基础介绍:

DataWorks(数据工场,原大数据开发套件)是阿里云数加重要的PaaS平台产品,提供数据集成数据开发数据管理数据治理数据分享等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。

DataWorks基于MaxCompute作为核心的计算、存储引擎,提供了海量数据的离线加工分析、数据挖掘的能力。

通过DataWorks,可对数据进行传输、转换、集成的操作,从不同的数据存储引入数据,对数据进行转化和开发,最后将数据输送到其他数据系统。

上图是官方给出的一般的比较理想的宏观数据搭建结构。但是你懂的,实际工作时,比这个复杂很多,所以为什么也是产品需要不断迭代的原因。

2.DATAWORKS的使用地图。

无论什么样的大数据架构,肯定跑不掉是 数据集成,数据开发,数据运维,权限,API接口,数据质量和数据安全。

数据集成:

dataworks2.0 数据集成的步骤和操作/MYSQL 数据离线集成到dataworks

数据开发:

运维中心结构:

权限结构:

数据API服务:

能够自动生产API,太给力了。之前的一个数据产品,需要提供30多个API接口,一个ETL工程师或者后端开发人员需要10天才能完成,现在,最多两天搞定。

数据质量:

数据安全:

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值