《阿里巴巴数据中台实践》深入理解

 

4、以阿里云为支撑的大中台小前台战略

这张图很好的诠释了阿里的商业操作系统引擎:阿里云平台做支撑,做大中台,做小前台。这里要重点说一下业务数据化和数据业务化两个概念。

业务数据化:就是所有的商业活动都应该记录下相关的数据,这是业务中台应该承担的使命。业务数据化挑战其实很大,以前业务平台在设计的时候,是以功能和流程为核心的,只记录对于要实现功能和流程必需的数据,其他的就可有可无了。比如运营商的一些信令日志记录不全面导致可能影响后续的网络分析或数据价值变现,这就没有做到业务数据化。但业务数据化有时意味着巨大的成本投入,说来容易执行难,大多企业的数据不是业务数据化战略执行的结果,而仅仅是顺便摘取的低垂的果实。数据团队的一个使命就是业务数据化,很多好的数据是你进入前端争取来的,这样才能驱动业务记录数据。

数据业务化:本质就是从数据中发现价值,反过来赋能业务,这是很好理解的。

6、阿里巴巴做数据中台的缘起

做数据中台的缘起跟一般数据仓库融合模型是一样的,共享复用的需要,比如原来基于淘宝数据的各种业务都自建一套中间层,而这些中间层很多是重复或类似的,比如蚂蚁业务有交易主题,天猫也有交易主题,那能不能抽象出公共的交易主题为两个业务都服务呢?因此你会看到阿里数据中台抽象出了会员、商品、交易、浏览、广告等公共核心主题层,从而为应用层服务,各个应用层以前要做很多公共层的东西,现在也可以完全复用了,理论上可以提升应用构建的速度。

下面这页片子从数据的依赖关系图比对了前后的变化,一个是网状的,代表了相互之间千丝万缕的关系,冗余肯定是很多的,一个是放射状的,一个节点可以为更多的后端节点服务,代表了共享和简洁。

7、阿里巴巴数据中台全景图

读懂这张图就理解了阿里的数据中台具体到底干了些什么,有五大部分跟数据中台直接相关:数据中台DaaS、数据资产管理IPaaS、数据研发平台IPaaS及计算与存储平台IaaS(Daas的概念提的好,鼓掌鼓掌)

1)计算与存储平台IaaS

流计算SteamCompute:类似于Spark或Flink的大数据流式处理框;

离线计算MaxCompute:阿里自研的EB级的数据仓库(原来的ODPS)。

实时计算ADS:主要用于提供实时在线分析,是AnalyticDB的简称,可以认为是阿里自研的OLAP版本。

2)数据中台DaaS

垂直数据中心(OneClick):就是传统数据架构中的ETL,通过离线、实时等方式将各渠道的数据采集过来。

公共数据中心(OneData):就是数据仓库建模需要达到的目的,保证数据口径的规范和统一,沉淀共性的数据,阿里采用的是维度建模,通过分析业务过程抽象出维度和指标,最后汇总成所需要的仓库模型

萃取数据中心(OneID):笔者的理解是阿里为了方便对外提供数据,形成了一套以各种ID(业务核心对象)为唯一标识的宽表,就好比运营商需要形成一套以用户ID(手机号码)、客户ID、账户ID、家庭ID为核心的宽表体系一样。

统一数据服务中间件(OneService):以数据仓库整合计算好的数据作为数据源,对外通过接口的方式提供数据服务。

3)数据资产管理IPaaS

资产地图:本质上是数据字典的图形化版本,阿里有多少数据、如何存储、数据之间关系如何、如何找、如何用都可以从资产地图找到答案,蛮形象的,从网上资料看,其设计还是值得借鉴,以下是一些界面截图。

资产分析:你可以理解为针对元数据的BI分析,什么结构分析,趋势分析什么的,万变不离其宗,你希望通过元数据分析理解现状,发现异常,从而指导数据资产的治理,比如支付类别的数据增长情况如何。

资产应用:你可以理解为利用元数据信息来提升数据资产的利用效率,比如通过影响分析挖掘出无效的数据资产,从而降低数据冗余,这个工作做好,价值是很大的。

资产运营:运营这个词被用烂了,运营其实不是一个功能,而是一个动作,希望通过各种举措来让数据被更多的人使用,从而产生更多的价值,比如新增数据资产的推荐等等。

数据资产使用的二八定律是非常明显的,大多数据其实是没人访问或使用的,而存储的成本可是很高的,只有通过运营才能让沉默的数据被更多的人使用,无效的数据得到清除,从而实现降本增效

4)数据研发平台IPaaS

这个平台跟笔者以前文章中提到的DACP是一个东西,就是负责数据的加工,需要一系列配套功能,包括数据规划、交换、处理、开发、调度及监控等等。

8、阿里巴巴数据中台的沉淀与积累

1)OneData

数据标准化:实现数据资产各域、主题、模型、字段、指标命名等的统一规范,笔者一直强调数据标准化一定要在源头解决,如果阿里的业务系统数据资产都遵循这个原则,那是厉害的很

技术内核工具化:我的理解是规范的落地必须依托工具来强制控制,比如你只能按照规范模板的要求来建表,否则就执行不了,阿里在这方面的管控据说是比较给力的。

元数据驱动智能化:有了元数据分析就能科学的计算出对于资源的诉求,而且可以做得非常快速和灵活,摈弃每次规划扩容到处找依据的窘境,这跟前面的元数据应用是类似的。

OneData是阿里数据中台非常核心的内容,其有一个Dataphin引擎,可以实现数据标准规范定义、数据模型的自动化开发、主题式数据服务即时生成等功能。

具体如下面这个片子所示,其包括数据引入-规范定义-数据建模-数据外部关联-数据资产沉淀-数据服务生成整个闭环链条,通过这一链条把数据管理的大多要素都实现了。

这种强规范性的开发模式在一定程度上也降低了灵活性,但其规模效益是非常好的,否则阿里这么庞大的数据资产是根本无法很好管理的,这个笔者深有体会,正如我们运营的DACP一样,我们遭遇到的,他们也一定遭遇到了。

指标标准化是笔者尝试过的事情,因为当初深感重复开发的报表太多了,而通过指标标准化可以解决这类问题,这是报表做到一定程度后自然而然产生的想法,以下阿里的做法跟自己当初做的如出一辙,所谓殊途同归。

2)OneID

假设有一位用户张三,在第一个手机上使用百度地图, 在ipad上观看百度爱奇艺视频,在第二个手机上使用手机百度app, 在pc电脑上使用百度搜索,如何将同一个用户在这些不同端的用户信息聚合起来呢?跟运营商的天然的以手机号码为唯一标识不同,互联网公司的各类账号ID要打通的挑战是非常高的,ID-MAPPING是互联网公司的一个核心技术,其需要确保各个领域搜集的数据是可以集成和关联分析的,没有统一ID的支持,多样化的数据集中起来分析是没有意义的,这是另一种形式的数据孤岛。比如下面的四条用户记录实际上表明的是同一个人:

3)OneMeta

这里的“数据资产分析”和“数据血缘跟踪”在前面的“数据资产管理IPaaS”都已经提及,是数据管理里非常基本的东西,特别提下数据综合治理。

安全:指的是诸如敏感数据分级和访问控制定义。

质量:指的是数据的质量规则定义。

成本:指基于数据资产的调用情况和处理成本给出一个综合评估。

人员:大概是数据资产指归属组织和个人的定义吧,比如我们的数据字典里就有一个属性,必须标识出这个资产的创建人、修改人以便跟踪追责。

4)OneService

主题式数据服务:应该是基于元数据构建的简单数据服务查询引擎,面向业务统一数据出口与数据查询逻辑,屏蔽多数据源与多物理表,就是搞一套业务化的伪SQL方便取数。

统一而多样化的服务:一般查询指普通SQL查询,OLAP就是多维分析,在线服务比较抽象,笔者猜测是诸如数据推送、定时任务等定制化服务形式。

跨源数据服务:大数据由于技术组件非常多,不同的数据往往存储在不同的数据库内,比如hadoop,gbase,oracle等等,如果要进行跨异构数据库的即席查询一般就要做先做数据汇聚,但一些轻量级的取数希望能直接进行关联分析得到结果,因此出现了这种服务诉求。

PPT就解读到这里,笔者最大的感受就是阿里的数据中台技术体系很庞大,但又非常关注细节,几个字看着简单,但落地则需要付出巨大的代价,而且是个渐进的过程,比如Dataphin。如要要了解阿里数据中台的更多技术细节,推荐一本书《阿里巴巴大数据实践》。其实数据中台要搞好不是简单的引进几个工具就可以了,技术仅仅是技术,你能COPY技术但COPY不了管理和文化,而这恰恰是数据中台成功的关键。

数据中台的更大挑战是:你的企业对于数据的理解是否已经达到了一定的阶段,你是否能够驱动公司去建立一套适合自己企业的数据管理机制和流程,而这个是最难的,你得走出自己的路。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值