《大数据大创新:阿里巴巴云上数据中台之道》:解密阿里数据中台建设

本文探讨了阿里巴巴数据中台的建设过程,重点介绍了OneData体系的规范化数据建模、公共数据中心的构建、烟囱式开发带来的问题,以及如何通过Dataphin这款PaaS产品解决智能数据构建与管理的问题。文章揭示了数据标准化、公共层建设的重要性,以及数据中台如何赋能业务并应对技术挑战。
摘要由CSDN通过智能技术生成

在架构图中,看到最下面的内容主要是数据采集和接入,按照业态接入数据(比如淘宝、天猫、盒马等),把这些数据抽取到计算平台;通过OneData体系,以“业务板块+分析维度”为架构去构建“公共数据中心”。

基于公共数据中心在上层根据业务需求进行建设:消费者数据体系、企业数据体系、内容数据体系等。

经过深度加工后,数据就可以发挥其价值被产品、业务所用;最后通过统一的数据服务中间件“OneService”提供统一数据服务。

四、阿里云上数据中台的建设过程

4.1 烟囱式开发造成业务困扰和技术浪费

阿里的数据中台治理主要是在2014年开始的,在2014年以前,阿里的大数据建设处于烟囱式开发状态,这样的开发带来了许多业务的困扰和资源的浪费。如图,是2014年以前的阿里巴巴分业务自建数据体系的抽象图。

在这里插入图片描述
不难看出,阿里的每一块业务都有对应的ETL开发团队为其提供数据支持,而每个ETL开发团队都会按照自己的思路建设自己的数据体系,可见:

  • 数据流向会乱,无方向性的
  • 数据管理式无序的,处于失控状态
  • 除了浪费研发人力和计算存储资源、也必然满足不了业务的需求

当然,这个问题被放大式在本身业务以极快的速度发展的前提下,这样的开发导致的问题我们从两个方面来看。

业务困扰

在混乱的开发中,会造成诸多的数据问题,如因为指标的定义问题,导致同一指标有多个数据,最常见的指标为UV,总结最业务的困扰主要一下三点:

  • 数据统一:数据标准规范难(命名不规范、口径不统一、算法不一致),数据任务响应慢,从而导致业务部门产生困扰而导致不满。
  • 数据未打通:各个数据团队各自为政,存在严重的数据孤岛现状;缺乏数据融通,数据价值发掘不够,从而导致业务部门看不清数据。
  • 成为成本中心且服务化不足:数据无方向性,依赖混乱,,数据管理无序,失控,成本化严重,面向应用的服务化投入不足甚至缺失。

技术困扰

浪费主要分两方面看,一方面是开发人力技术的浪费,开发人员日常在数据异常排查和数据调研上疲于奔命。另外一个是计算存储资源的浪费,在没有公共层的情况下,数据重复存储和计算非常常见。简单的总结为一下的三点:

  • 研发苦恼:烟囱式开发周期长、效率低。
  • 维护困难:源系统乎或业务变成不能及时反应到数据上,加之数据不标准,不规范,上线难,下线更难。
  • 时效性差:重复建设导致任务链路冗长、任务繁多,计算资源紧张;数据批量计算慢,时效性不强且覆盖 业务范围窄,即时查询返回结果慢。
4.2 数据公共层力求让业务和技术都满意

从上面的问题来看,数据的公共层建设是一件迫在眉睫的事情,那么数据公共层建设到底该如何进行,建设之前又要如何准备。这里就是OneData体系建设数据建设篇,OneData体系的主要四个组成部分为:

  • 规范化数据建模:规范化数据建模,特别关注数据规范定义、数据模型设计和ETL开发等全流程
  • 规范化研发工具:用来落地和承载规范化建模的工具
  • 数据模型数据小库:规范化数据建模产生的所有分层数据模型的数据被统一存放在数据小库中
  • 面向应用的数据监控:所有的数据在面向应用是都会被监控和调用,且对上线、下线调优监控
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值