大数据技术架构_独家解读!阿里首次披露自研飞天大数据平台技术架构

9 月 26 日,阿里云飞天大数据平台在云栖大会第二天主论坛上正式对外发布,这也是阿里首次对外披露飞天大数据平台的整体架构。据介绍,飞天大数据平台由阿里自主研发,可扩展至 10 万台计算集群,是目前全球集群规模最大的计算平台。

飞天大数据平台始于 2009 年阿里巴巴的“登月”计划,在此次对外发布之前,它已经在阿里云内部实际运行和服务了十年之久(大家过去更为熟悉的 MaxCompute 是飞天系统的三大件之一,也是如今飞天大数据平台的核心)。如今飞天大数据平台在阿里巴巴经济体中支撑 99% 的数据存储和 99% 的计算力,单日数据处理量超过 600PB,也是阿里 AI 技术最重要的基础设施之一。飞天大数据平台如何演变至今?背后有哪些值得关注的技术能力?在人工智能的浪潮中,大数据除了提供支持,还能如何借力?在本次云栖大会上,InfoQ 有幸采访到了飞天大数据平台的几位核心技术专家,本文将从飞天大数据平台的演进历程、核心技术特性及未来发展方向等方面揭开飞天大数据平台的神秘面纱。

飞天大数据平台的前世今生

2009 年,阿里启动“云梯”计划,当时有两条技术路线同步进行,分别是开源的 Hadoop 和自研的 ODPS(也就是今天的 MaxCompute)。当时阿里已经下定决心要开始去 IOE 并构建自己的大数据平台,但还没有决定好是走开源路线还是自研路线,因此就有了云梯 1(Hadoop)和云梯 2(ODPS)的并行。2013 年,两个平台先后突破单集群 5000 台服务器,这意味着自研 ODPS 达到了大数据集群水平扩展的一个里程碑,最终集团从深度技术把控力和极致性能优化的角度,决定采用云梯 2、彻底走上自研路线,同年,代表着阿里人攀登技术巅峰理想的“登月”项目正式启动。

在“登月”项目进行过程中,自研数据综合治理平台 DataWorks(原来叫作 BASE)也同步开始构建。到了 2015 年,“登月”项目完成,ODPS+BASE 开始在阿里云上对外提供服务,这也标记着阿里第一套数据中台体系构建完成。 同年,ODPS 打破了计算界奥运会 SortBenchmark 的 4 项世界纪录,100TB 数据排序仅耗时不到 7 分钟。

4ace9e409bae567ed31fe018ab8afe88.png

2016 年,阿里集团内部开始涌现出一批新的计算引擎,包括支持开源大数据的 EMR(E-MapReduce)、实时计算 Stream Compute、机器学习 PAI 等。随着企业数据场景变得越来越复杂,数据类型和存储类型越来越多样化,单一引擎或单一存储已经很难满足客户需求。这也给大数据平台带来了新的挑战,对于不同的数据类型、存储类型、计算引擎,如何方便地进行数据统一管理和开发?阿里巴巴认为当前最佳实现方式是跨引擎统一编程平台 + 跨数据源综合治理,而这推动了阿里大数据平台向飞天大数据平台的演进。

十年后全新出发的飞天大数据平台,是一个能够将离线计算、实时计算、机器学习、搜索、图计算等引擎协同起来对云上客户提供服务、且有 AI 加持的全域数据平台。下图是当前飞天大数据平台的完整架构。

b9da4daea849eaac5410090731cc2474.png

飞天大数据平台与传统大数据平台有哪些不同?

简单总结起来,首先,解决客户复杂数据场景更加灵活;其次,大数据计算能力更强、成本更低了。

独创秘籍,企业数据综合治理

数据是企业的生产力,创新的企业在快速发展过程中,会选择更加灵活、适配自身业务的数据存储与计算,当企业的业务已经铺遍全国,一定会存在存储跟着数据走、数据跟着业务走的局面(即数据分布在各个区域的数据平台上),传统的大数据解决方案,是帮助企业汇聚统一的大数据平台,所有数据存储在一起,计算在一起,而飞天大数据平台可以提供更多的选择,通过数据综合治理的新功能,企业可以将不同存储、不同计算引擎的数据在同一个平台进行分析,不仅如此,飞天大数据平台提供的统一元数据中心

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值