目录
0. 前言
今天学习了邓中华老师这本《大数据大创新:阿里巴巴云上数据中台之道》,基本上可以窥见阿里数据中台的建设过程以及一些技术细节,主要内容如下笔记。
0. 前言
1. 大数据的发展历程和价值探索
从大数据的概念被正式提出,到马老师预言人类从IT时代走向DT时代,大数据浪潮迭起。
身为大数据开发者,我认同并且深信的一点就是,大数据一定会对社会创新、产业变革、业务创新及每个人的角色定位都会产生近乎决定性的影响。
阿里的云上数据中台,是历经阿里生态内各种业态挑剔的实战历练,云上数据中台除了自身具备的内核能力外,还向上与“赋能业务前台”连接,向下与“统一计算后台”连接,并与之融为一体,形成云上数据中台业务模式,因此也具备了对全社会赋能的可能。
1.1 大数据发展的关键事件
接下来简单介绍下国内外大数据发展的关键事件:
这其中重要的一点需要了解,那就是2003年谷歌公开了著名的“三驾马车”,内部对于海量文件的处理技术、GFS分布式文件系统、并行计算处理框架MapReduce、高效数据存储模型BigTable,这些促成了分布式系统基础架构Hadoop,为各个大数据组件的诞生打下基础。
1.2 大数据的内涵和外延
酝酿20年才发展起来的大数据技术,究竟会给现实世界带来怎样的改变?可以探索的大数据市场又在哪里?书中从以下四个方面进行了介绍。
-
语义层面:‘数据’即所有信息的记录,例如用户访问网站的信息的转化过程的行为属性;大是巨量的意思,可以隐身为数量、形式、含义的丰富,保障实现被高保真的记录与回放
-
实现层面:大数据是一套数据处理技术活方法体系,实现具体以上特征的数据的存储、计算、共享、备份和容灾、保密等,保证数据处理的时效性和拓展性。
-
服务层面:大数据的数据技术变革引发的新型信息服务模式,例如从数据探索出发,系统主动推送信息给用户做决策、给及其优化参数、基于数据的量变完成数据的质变。
-
应用层面:大数据是数据服务组合生成的新场景、新体验、日益增长的数据量非但不会使信息获取效率降低、质量下降,反而会让每个人都能得到快速的迭代,个性化的互联网服务。
2.阿里的大数据主张
在数据提供服务的基础上,阿里对数据的要求是准、快、全、统、通,简单的解释是标准统一融会贯通、资产化、服务化、闭环自优,这是阿里数据中台实现目标的核心。
2.1 云上数据中台赋能业务运行图
在这张运行图中,我们需要理解四个关键词:数据全面、数据打通、数据统一以及数据的闭环自优化。而这些正得益于OneData、OneEntity和OneService体系。
其中,OneData致力于实现数据的标准与统一,让数据成为资产而非成本;OneEntity致力于实现实体的统一,让数据融通而非以孤岛存在;OneService致力于实现数据服务统一,让数据复用而非复制。
但在阿里最新的 OneData 方法论中,则是划分为 OneID、OneModel、OneService。OneData致力于实现数据的标准与统一,让数据融通而非以孤岛存在;OneModel致力于实现实体的统一,让数据融通而非以孤岛存在;OneService致力于实现数据服务统一,让数据复用而非复制。
2.2 阿里数据中台赋能业务全景图
在架构图中,看到最下面的内容主要是数据采集和接入,按照业态接入数据(比如淘宝、天猫、盒马等),把这些数据抽取到计算平台;通过OneData体系,以“业务板块+分析维度”为架构去构建“公共数据中心”。
基于公共数据中心在上层根据业务需求进行建设:消费者数据体系、企业数据体系、内容数据体系等。
经过深度加工后,数据就可以发挥其价值被产品、业务所用;最后通过统一的数据服务中间件“OneService”提供统一数据服务。
3.阿里云上数据中台之建设过程
3.1 烟囱式开发带来的困扰和资源浪费
阿里的数据中台治理主要是在2014年开始的,在2014年以前,阿里的大数据建设处于烟囱式开发状态,这样的开发带来了许多业务的困扰和资源的浪费。如图,是2014年以前的阿里巴巴分业务自建数据体系的抽象图。
不难看出,阿里的每一块业务都有对应的ETL开发团队为其提供数据支持,而每个ETL开发团队都会按照自己的思路建设自己的数据体系,可见:
-
数据流向会乱,无方向性的
-
数据管理式无序的,处于失控状态
-
除了浪费研发人力和计算存储资源、也必然满足不了业务的需求
当然,这个问题被放大式在本身业务以极快的速度发展的前提下,这样的开发导致的问题我们从两个方面来看