阿里巴巴资深大数据工程师:大数据处理实践

2018年1月6日的云栖社区数据智能技术论坛上,来自阿里巴巴计算平台事业部高级技术专家少杰带来大数据处理的相关演讲。本文首先浅谈了大数据处理发展历程和MapReduce的诞生,我是大数据爱好者,建了一个大数据资源共享群722680258每天分享大数据搭建学习方法,以确定大数据处理系统的实现模式,接着重点分享了Maxcompute和飞天的架构实践,包括盘古伏羲和SQL查询,最后作了简要总结。

阿里巴巴资深大数据工程师:大数据处理实践

大数据处理和分布式技术

一.大数据处理

阿里巴巴资深大数据工程师:大数据处理实践

二.MapReduce

阿里巴巴资深大数据工程师:大数据处理实践

三.飞天和Maxcompute

阿里巴巴资深大数据工程师:大数据处理实践

四.盘古

阿里巴巴资深大数据工程师:大数据处理实践

伍.伏羲

阿里巴巴资深大数据工程师:大数据处理实践

六.Maxcompute SQL

阿里巴巴资深大数据工程师:大数据处理实践

七,案例分析

阿里巴巴资深大数据工程师:大数据处理实践

如图SQL查询,首先会生成一个TOK Tree,将词法解析成具体的TOK;然后生成一个关系代数树;优化后生成一个执行计划,对应了算法选择等。

阿里巴巴资深大数据工程师:大数据处理实践

执行计划又是如何执行呢?如图两张表,一张表是foo table,一张表是bar table,这两张表对应数据在join时,需要把key对应到join key重新分发到下面一堆机器,保证join key在相同机器上都是独立的,都是经过表名做排序的,每一台机器对应execution plan做出最后结果。

阿里巴巴资深大数据工程师:大数据处理实践

Maxcompute上还有其它知识组件,包括块数据传输服务Tunnel,流式数据传输服务DataHub

,数据交互工具DataX。Maxcompute在用户终端上也支持ODPS Studio、ODPS Console、pyOdps / Pai等。

阿里巴巴资深大数据工程师:大数据处理实践

在更高层的调度上,我们支持D2系统,帮助用户实现任务集依赖管理

综上,对大数据处理的原理和系统实现以及Maxcompute进行分析后,得出如下总结概括:

现代大数据处理使用大规模分布式系统搭建的廉价集群。

大数据处理系统不是单一系统,通常是分层的设计。

飞天/Maxcompute是一个全系统栈、多编程模型、广泛接口支持的大数据处理系统

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值