数据中台

数据到底是什么?

阿里提出了“大中,小前”,其中事业部包括搜索事业部、共享业务平数据技术及产品部,数据技术及产品部应是数据建设的核心部门。

那么,数据到底是什么?具体包含哪些内容?跟大数据是什么关系?在架构层面是怎么体现的?数据跟产品又有什么关系?

阿里数据技术及产品部的掌门提倒了数据的具体含义,这里引用他说的话:

“很多人会把数据比作“石油”,马老师(马云)也说过,阿里巴巴要成为全球电子商务的“水电煤”。我们现在搭建的数据,就是希望扮演“发电厂”的角色。”

“我们知道,电力的发展可以分为几个阶段,最开始是一些有能力的企业自己发电,后来出现新的工业产能,有的企业电用不掉,有的却不够用,这时候国家机构就出来了,会去搭建国家级的电网,不管是核能发电,还是风力发电、水力发电,最大程度地保障不同群体的用电需求。”

“我们数据也是这样一个运转思路,我们落到实处是一个倒三角形,从下往上分为四个部分——”

“第一是数据技术。没有数据的时候,不管是阿里内部还是各商家,大家都有自己的数据中心、机房、小数据库。但当数据积累到一定体量后,这方面的成本会非常高,而且数据之间的质量和标准不一样,会导致效率不高等问题。因此,我们需要通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。”

“第二是数据资产。数据把阿里系的数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而保证为集团各业务和商家提供高效服务。”

“第三和第四都是数据服务,包括服务商家和服务小二。例如生意参谋和阿里指数,就是数据中面向商家端提供的数据服务。”

数据服务阿里,说白了更多是在为各位商家服务。平会确保大家在使用数据的过程中,口径、标准、时效性、效率都有保障,能有更高的可靠性和稳定性。”

以上说得好像都对,但逻辑上有些是无法自洽的,比如这里的数据技术跟阿里云的数据技术是什么关系?数据要不要承担hadoop/ETL这类平和工具的研发?生意参谋是个端到端的产品,似乎不能划为数据

当然,从职能看,作为中部门的确需要基于产品直接服务一线客户,而不是往后退,这也是以前笔者对于数据最大的困惑,一直在想这个数据的部门绩效该如何定呢?没有业务的滋养中如何迭代优化呢,阿里算是解惑了。

但如果把直接的产品当成中显然是不合理的,阿里提了数据,忙坏的倒可能是那些做数据架构和数据管理的,因为架构讲究逻辑严密,本质和边界必须定义清楚,没有歧义,否则做事就会很茫然,不知道该怎么入手。

比如哪天领导问你,我们企业的数据有没有,要向阿里学习啊,有了清晰的概念你就可以做映射了,否则就会显得手足无措,这种事情其实很多。

笔者的企业最近在做IT规划,很多人就对数据要带一些产品职能有异议,记得以前笔者还把营销平当成中,号称也是赋能所有营销人员的,这就是概念不清造成的问题。

说来也奇怪,网上很难找到数据的更科学解释,能找到的大多也不够清晰,与大数据有千丝万缕的关系,笔者最近正好在思考这个问题,特此分享于你,当然仁者见仁,智者见智了。

所谓数据,即实现数据的分层与水平解耦,沉淀公共的数据能力,笔者认为可分为三层,数据模型、数据服务与数据开发,通过数据建模实现跨域数据整合和知识沉淀,通过数据服务实现对于数据的封装和开放,快速、灵活满足上层应用的要求,通过数据开发工具满足个性化数据和应用的需要

1、数据模型

数据模型是分层次的,以前叫作数据仓库模型,笔者这里概括为三层,基础模型一般是关系建模,主要实现数据的标准化,我们叫作“书同文、车同轨”,融合模型一般是维度建模,主要实现跨越数据的整合,整合的形式可以是汇总、关联,也包括解析,挖掘模型其实是偏应用的,但如果用的人多了,你也可以把挖掘模型作为企业的知识沉淀到中,比如离网挽留的模型具有很大的共性,就应该有人把它规整到中模型,以便开放给其它人使用,中的中是相对的,没有绝对的标准。

2、数据服务

数据模型按照应用要求做了服务封装,就构成了数据服务,这个跟业务中中的服务概念是完全相同的,只是数据封装比一般的功能封装要难一点,毕竟OLTP功能的变化有限,而数据分析受市场因素的影响很大,变化更快,导致服务封装的难度变大。

随着企业大数据运营的深入,各类大数据应用层出不穷,对于数据服务的需求非常迫切,大数据如果不服务化,就无法规模化,比如浙江移动封装了客户洞察、位置洞察、营销管理、端洞察、金融征信等各种服务共计几百个,每月调用量超过亿次,灵活的满足了内外大数据服务的要求。

3、数据开发

但有数据模型和数据服务还是远远不够的,因为再好的现成数据和服务也往往无法满足前端个性化的要求,这时候就得授人以鱼不如授人以渔了,数据的最后一层就是数据开发,其按照开发难度也分为三个层次,最简单的是提供标签库(DMP),用户可以基于标签的组装快速形成营销客户群,一般面向业务人员,其次是提供数据开发平,用户可以基于该平访问到所有的数据并进行可视化开发,一般面向SQL开发人员,最后就是提供应用环境和组件,让技术人员可以自主打造个性化数据产品,以上层层递进,满足不同层次人员的要求。

对于标签库(DMP)到底是属于SaaS还是PaaS是有争议的,但标签库这类平显然较生意参谋类产品更中一点,因为其通用性更强,专有业务的特性不是非常明显,笔者还是认为可以归为中

应该来讲,数据开发中的组件,比如页面组件、可视化组件什么的,归属到业务中似乎更合理,但其实也要看企业的实际情况,哪里用的多就可以归属到哪里,没有绝对的标准了。

以上划分方式在逻辑上还是说得通的,但还有很多没有考虑进来,比如算法服务、机器学习引擎、hadoop、MPP等等,笔者觉得算法服务应该属于数据服务的一种类型,但h a d o o p、MPP、机器学习引擎更底层一点,应属于私有云或公有云的范畴了,比如笔者看到阿里云就提供了MaxCompute这类机器学习服务。

关于数据的分层看似简单,但笔者却纠结了好久,很多边界是模糊的,最近看的一本书提到,新的概念如果跟既有知识体系不相符,一定要努力搞清楚,不能人云亦云,只要能表达出自己的观点,即使还是错了,也有了被人家纠正的机会,对于事物理解的不深入,大多是不求甚解导致的概念不清的结果。

最近新零售很热,各路大仙都出来诠释新零售的概念,大家可以想想新零售到底是什么?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
从0-N建立大数据中台数据驱动速度决定了 数据驱动速度决定了 数据驱动速度决定了 数据驱动速度决定了 数据驱动速度决定了 MVP MVP迭代的速度, 迭代的速度, 迭代的速度, MVP MVP迭代速度决定了商业模式是否可以成立 迭代速度决定了商业模式是否可以成立 迭代速度决定了商业模式是否可以成立 迭代速度决定了商业模式是否可以成立 迭代速度决定了商业模式是否可以成立 迭代速度决定了商业模式是否可以成立 迭代速度决定了商业模式是否可以成立 让数据分析业务人员独立完成和运营,减少 让数据分析业务人员独立完成和运营,减少 让数据分析业务人员独立完成和运营,减少 让数据分析业务人员独立完成和运营,减少 让数据分析业务人员独立完成和运营,减少 让数据分析业务人员独立完成和运营,减少 让数据分析业务人员独立完成和运营,减少 让数据分析业务人员独立完成和运营,减少 让数据分析业务人员独立完成和运营,减少 让数据分析业务人员独立完成和运营,减少 ETL 脚本和提数重复工作量,高业务人员分析效率 脚本和提数重复工作量,高业务人员分析效率 脚本和提数重复工作量,高业务人员分析效率 脚本和提数重复工作量,高业务人员分析效率 脚本和提数重复工作量,高业务人员分析效率 脚本和提数重复工作量,高业务人员分析效率 脚本和提数重复工作量,高业务人员分析效率 脚
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值