数据中台技术及业务发展史与未来趋势展望
作者:陈晓勇、柯根
阿里巴巴数据技术编年 简史
2003年淘宝诞生于杭州一间民居。次年,Google发表了三篇大数据论文将计算技术引入大数据时代。
2004年Doug Cutting和Mike Cafarella根据Google的论文实现了Hadoop的HDFS和MR计算框架。
2006年 Hadoop项目进入Apache社区。
2008年9月Hive成为Hadoop的子项目,之后成为Apache的顶级项目。同年,淘宝开始实施基于Hadoop系统的数据计算平台搬迁-云梯1。
2009年阿里云诞生,阿里云开始写下Maxcompute第一行代码,中国的各种云端服务开始涌现。
2014年阿里巴巴实施登月计划,完成基于Maxcompute平台的数据平台迁移-云梯2,汇总全集团的数据业务到一个平台上,完成数据公共层建设,OneData体系和集团的数据中台渐趋成型。
2014年4月Intel投资Cloudera,放弃自主的Hadoop发行版,同年Cloudera进入中国市场。
2017年数据中台产品Dataphin产品问世,同时支持Maxcompute和Hadoop大数据平台,OneData内部的技术体系开始对外实现赋能。
2018年Cloudera和Hortonworks宣布了公司合并,Hadoop发行版从多个厂商竞争变成寡头间游戏。
2020年基于Dataphin、品牌数据银行,Quick Audience、Quick Stock数据中台产品的全域营销推出,阿里开始通过自有的数据体系赋能商家,数据中台从纯技术推广到业务价值体现。
数据中台理念应运而生时机
传统的数据处理方式,特别是传统的数仓平台,其软硬件采购成本,运维成本、技术门槛等都颇高。只有银行、运营商等大型企业才有能力和财力实现数据仓库和数据集市的平台建设。随着大数据技术和云上服务的普及,企业的运维成本和技术开发门槛大幅度降低,特别是具有极高性价比的云端服务,简单的部署,近乎无限的可扩展性和轻松的管理,综合使用成本和便捷性都大大优于传统数据平台。因此,企业开始将其数据仓库从传统的Teradata、Oracle/IBM等平台迁移到大数据平台或云服务中,时至今日,这一变化还在传统企业中不断的上演。
云计算兴起之后,数据库和弹性计算(ECS)是最为普遍的产品,但随着用户在云上业务的数据积累