2009年,阿里云开启了中国的云时代。
十年市场教育,中国的公有云市场也已经从无到有,迈过了300亿元大关,预计到2021年更是能达到900亿元的规模。
「数据上云」已经从一个技术词汇,慢慢转变成为企业界的共识:如果想要在信息商业中拥有一席之地,就必须要借助云计算的力量,完成企业的数字化转型。
只是,数据到底在转型中扮演什么样的角色,要如何利用好数据,数据上云后如何支持业务,企业需要哪些核心能力?这些问题,对于大多数的非技术业者而言,仍然是知其然不知其所以然。
作为数据业务领域的先行者,阿里云总裁张建锋,把数据智能作为数据处理的核心能力:
「今天处理数据绝大部分都不是单纯靠算力,算力是基础,而主要是靠上面的智能化的算法,算法跟各行各业的业务有密切相关,所以阿里巴巴通过与各行各业合作,沉淀了一个完整的智能化平台。我们认为在基础设施的云化、核心技术的互联网化以及在之上叠加大数据+智能化的平台和能力,完整地组成了阿里云智能的整体能力框架。这是我们核心的能力。」
这里面传达出了几个核心信息:
1.云计算为数据智能提供了基础算力;
2.行业(经验转化而来的)算法是智能处理数据的主要工具;
3.数据+智能的平台和能力,前提是基础设施的云化和核心技术的互联网化;
这是阿里云所认为的数据处理的能力框架,而在市场上,我们通常把这种能力框架称为「数据中台」。
舆论往往会更强调技术的作用,强调技术对业务的推动作用,但事实上,在商业领域,更多的时候,技术发展都是跟着业务走,技术的发展常常来自于业务需求和业务场景的倒逼。
例如,随着越来越多的企业把业务流程上云,日益增长的数据存储和仍然稀缺的数据应用就成为了企业的主要矛盾之一,而且,这种矛盾不是一天就能够解决,需要从业务、技术、组织几个不同的领域一起来探寻数据的解决方案。
「数据中台」就是这一系列解决方案的基础设施。
数据中台不是一套软件系统,也不是一个标准化产品,只能说,站在企业的角度上,数据中台更多地指向企业的业务目标,也即帮助企业沉淀业务能力,提升业务效率,最终完成数字化转型。
那么,数据中台又是如何一步步驱动业务的呢?
作为阿里第一个数据仓库的建立者,TCIF(淘宝消费者数据工厂)和阿里云数据智能平台数加的创始人,张金银(花名行在,以技术专家的身份2004年加入阿里巴巴,到2016年年底,在阿里巴巴的12年技术生涯),他完整经历了从「数据上云」到「数据中台」的全过程。
(?奇点云CEO——行在)
张金银在2016年12月份创立“奇点云”,奇点云以“AI驱动的数据中台”来为企业提供服务,这些过往经历,也让他能够跳出技术的身份,站在业务的视角思考数据中台和业务的关系。
显然,他是回答这个问题的最佳人选。
数据中台演进的四个阶段
Q:我们常说,技术发展都是跟着业务走,能不能请您介绍一下,在互联网平台上,和业务场景相关的数据处理有哪些类型?
A:互联网里面最多的业务都是和消费者相关的业务,这是一个大的场景,跟着这个场景会有两条主要的线,一条是事务处理需求,我们称其为OLTP(联机事务处理),另一条是分析需求,我们称其为OLAP(联机分析处理)。
举个例子,最早淘宝还只是一个网站的时候,整个结构就是前端的一些页面,加上后端的DB(DataBase,数据库),这就是一个OLTP系统,主要用于交易的事务处理。
但是,当淘宝发展到100万用户的时候,就出现了另外一个需求,也就是之前说的分析需求,淘宝需要知道这些交易来自于哪些地区,来自于哪些人,这就出现了报表需求。
Q:那么,分析报表这种OLAP需求,和之前的事务处理OLTP的差别在哪里呢?
A:别急,哈哈。交易场景的特点是强调高并发、单条数据简单提取和展示(增删改查),而报表需求则没有那么多的并发数,但是对于数据的要求和交易场景不同,对数据批处理的要求也比较高,也就是通常所说的低并发,大批量(批处理)、面向分析(query+计算,用于制作报表)。
这样一来,分析需求(OLAP)和交易(OLTP)的DB放在一起就非常不合适,这时候出现了两个变化:
第一个,DB本身也在发生变化,从传统DB转向分布式DB。主要原因是以前交易稳定,并发可控,传统DB能满足需求,但是后来随着交易量的增长,并发越来越不可控,对分布式DB的需求也就出来了;
第二个,针对分析需求就出现了DW(DataWarehouse,数据仓库),我2004年加入阿里,用Oracle RAC搭建了阿里巴巴第一个DW。
Q:在讲电商系统发展过程的时候,我们常把其分为四个阶段:单一业务系统阶段,分布式业务系统阶段,业务平台化阶段,业务中台化阶段,那么,在数据处理领域是否也分类似的阶段?
A:有的,电商系统就是OLTP的典型应用场景,电商的单一业务系统阶段就是之前说的数据库(DB)阶段;而OLAP分析需求的增长,则带动业务进入了第二个阶段,也就是数据仓库(DW)阶段,主要处理分析报表的需求;对应业务平台化,第三个阶段是数据平台阶段,主要还是解决报表和BI的需求;第四个阶段,就是我们现在说的数据中台阶段,主要在把OLAP和OLTP去做对接。
(?数据中台演进的四个阶段)
Q:原来第三阶段还在解决报表需求......
A:对,这个阶段主要解决的是技术问题。在数据库技术领域:「Shared Everthting、Shared Nothing、和Shared Disk」,说的就是这个过程中数据库架构设计的不同技术思路。
Shared Everything一般是针对单个主机,完全透明共享CPU/MEMORY/IO,并行处理能力是最差的,典型的代表SQLServer。
Shared Disk的代表是Oracle RAC,用户访问RAC就像访问一个数据库,但是这背后是一个集群,RAC来保证这个集群的数据一致性。
问题在于,Oracle RAC是基于IOE架构的,所有数据用同一个EMC存储。在海量数据处理上,IOE架构有天然的限制,不适合未来的发展。阿里巴巴的第一个数据仓库就是建立在Oracle RAC上,由于数据量增长太快,所以很快就到达20个节点,当时是全亚洲最大的Oracle RAC集群,但阿里巴巴早年算过一笔账,如果仍然沿用IOE架构,那么几年后,阿里的预计营收还远远赶不上服务器的支出费用,就是说,如果不去IOE,阿里会破产。
Shared Nothing的代表就是Hadoop。Hadoop的各个处理单元都有自己私有的存储单元和处理单元,各处理单元之间通过协议通信,并行处理和扩展能力更好。中间有一个分布式调度系统,会把表从物理存储上水平分割,分配给多台服务器。
Hadoop的好处是要增加数据处理的能力和容量,只需要增加服务器就好,成本不高,在海量数据处理和大规模并行处理上有很大优势。
Q:原来如此,那么第四个就是目前的数据中台阶段。
A:从业务来看,数据也好,数据分析也好,最终都是要为业务服务的。也就是说,要在系统层面能把OLAP和OLTP去做对接,这是数据中台要解决的问题。
目前的数据中台,最底下的数据平台还是偏技术的,是中台技术方案的其中一个组件,主要解决数据存储和计算的问题;在上面就是一层数据服务层,数据服务层通过服务化API能够把数据平台和前台的业务层对接;这里面就没有人的事情,直接系统去做对接,能把前台的OLAP需求和OLTP需求去做对接。
Q:可否这么理解:第一阶段到第二阶段,主要解决数据的「看」,能够对业务进行评估;第二阶段到第三阶段,解决数据的「用」,业务能够拿着评估结果去改进工作;第三阶段到第四阶段,数据化运营,数据赋能业务高效运营。
A:也可以,我们不常说:「一切业务数据化,一切数据业务化」,差不多就是这个意思。
数据中台需要把云和端合起来做
Q:刚才你提到海量数据处理,那么,能不能从数据来源的角度来描述下数据和业务的关系?
A:国内的情况,可以分三个时间点来讲。
第一个阶段是2003年之前,互联网黄页刚刚出现,数据来源大部分还是传统商业的ERP/CRM的结构化数据,也就是前面说的数据库阶段,这个时候数据量并不大,也就是GB的级别;
第二个阶段是2004年,随着BBS和搜索引擎的发展,互联网进入高速发展时期。和传统的结构化数据不同,互联网数据量最大的是非结构化的网页日志,90%以上的数据都来源于点击(log),这时候数据量已经达到了TB的级别,需要使用很多的技术,比如DW,去把非结构化的数据转化成结构化数据,存储下来。
第三个阶段是2016年之后,IOT(物联网)发展起来,带动了视图声(视频、图像、声音)数据的增长,以后90%的数据可能都来自于视图声的非结构化数据,这些数据需要视觉计算技术、图像解析的引擎+视频解析的引擎+音频解析的引擎来转换成结构化数据。这时数据量已经从PB级别迈向了EB级别。
5G技术的发展,可能会进一步放大视图声数据的重要性。不管从数据量的增长、数据处理技术的进步,还在站在企业对数据中台的认知来说,2019年都可以称为数据中台元年。
Q:这很有意思,科学研究表明,人从外部世界获得的信息中,由眼睛获取的约占80%,只是过去在线下,企业一直没办法去获取和使用这些数据。
A:线下要想和线上一样,通过数据来改善业务,就要和线上一样能做到行为可监测,数据可收集,这是前提。
而这些数据靠人来手工收集,肯定是不靠谱的,依靠IOT技术和视觉算法的进步,最终会通过智能端来自动化获取数据。
这就是奇点云要自己掌控视觉算法的原因,在视觉技术方面,奇点云的人脸识别能力全球排名Top5,ReID技术排在全球Top2。
另外,要使用这些数据,光有视觉算法和智能端也不行,要有云来存储和处理这些数据,并且最终通过AI算法来赋能业务来增长生意。
我认为未来要做好数据中台,只做云或者只做端都不靠谱,需要把两者合起来做。智能端负责数据的收集,云负责数据的存储、计算、赋能。端能够丰富云,云能够赋能端。
所以未来服务线下企业的数据中台一定是「AI驱动的数据中台」,这个中台的能力要包括「计算平台+算法模型+智能硬件」,不仅要在端上具备视觉数据的收集和分析能力,而且还要能通过Face ID,帮助企业去打通业务数据,最终建立线上线下触达和服务消费者的能力。
数据中台需要具备三大能力
Q:那么,您认为合格的数据中台需要具备哪些能力?
A:需要具备三种能力。
第一是数据模型能力。
在业务层面,业务抽象能够解决80%的共性问题,开放的系统架构来解决20%的个性问题,但同时又要把平台上的业务逻辑分开,因为不同的业务逻辑之间可能有冲突。
这在数据中台就表现为数据的中心化,也就是数据的高内聚、低耦合,需要对共性问题抽象出业务的规则,建立数据模型,一个好的内聚模块能够解决一个事情,同时又要降低模块和模块之间的耦合度,让模块具有良好的可读性和可维护性。
这里的前提是要有真正懂业务能沉淀经验的人,以及要在企业层面开展数据治理,让数据能够准确、适度共享、安全地被使用。
第二是AI算法模型能力。
要实现数据业务化,前提是做到数据的资产化。要能够从数据原油里面,去提炼出可以使用的汽油。
比如说数据的标签化,背后就有投入产出比的考量:通过标签,广告主可以非常方便快捷地去建立自己的人群包,实现精准营销,同时投放的ROI也是可见的、透明的,广告主可以自己去评估数据资产的使用情况。
第三是行业的应用能力,也就是我们通常说的数据业务化能力。
和数据中心化类似,数据业务化也需要很强的行业经验来指导,建立合适的业务场景,在场景里面去使用数据,从而体现数据的价值,来大大扩展数据在行业中的应用能力。
Q:能举个例子吗?
A:那我就说下TCIF(消费者数据工厂)的例子吧。
先说为什么要做TCIF?
因为当时消费者的信息分散在阿里巴巴的各个业务中,碎片化,散点化,而业务当时需要把这些分散的人的数据集中起来,进行人群画像。
道理很明白,人群画像越清晰,服务就会越精准。
再说我们是怎么做的。
•首先,定义埋点规范,同一个人就用同一个标识,ID打通,也就是所谓的One ID;
•其次,还会碰上一家人使用一个登录帐号的问题,那么就需要建立同人的数据模型,通过一些方式,比如,IP网段是不是一样,来分辨出具体的那个人,建立AID(Alibaba ID);
•再次,每个人还有各种网络行为,要如何把这些行为结构化,装到各种框架里面?这个特别难,我们当时主要是跟人类学家合作,一起把行为的分类树做出来。这个分类树非常细,甚至能够把一个人的发质都结构化了。
接下来,就需要通过算法模型,把所有的标签都贴回到人上面。
最后,比如阿里妈妈的达摩盘就会把这些标签提供给广告主,让广告主能够通过标签去建立人群画像,进行人群细分,以及建立投放用的人群包。
未来,更低成本,更高效率的线下连接
Q:最后,能否请您介绍下您个人的经历
A:我本人是2004年以技术专家身份加入的阿里巴巴,2016年离开,在阿里巴巴搭了第一个数据仓库,创建了第一个消费者数据工厂(TCIF),创建了阿里巴巴大数据平台数加,可以说,这12年就是和数据作伴的12年。
因为对于数据未来的判断(注:未来90%以上都是视图声数据),2016年,我离开阿里巴巴创立了奇点云,去帮助线下企业复制线上,真正实践「AI驱动的数据中台」。
Q:如果用一个或几个词来形容数据中台给企业带来的效果,您觉得会是哪个词?
A:我会说是「降本增效」。这么多年来,互联网的发展都建立在更低成本、更高效率的连接之上,线下也一定会延续线上的发展逻辑,而低成本高效率的连接,也会带来更多的数据,从而帮助企业在各个层面降低成本,提高效率。
这是一个良性循环。
相关研究表明,中国目前有超过 80% 的企业仍然处于较为初级的数字化转型阶段。未来的商业,数据智能是源动力。数据中台,已然成为企业数字化转型的关键,或者说是必经之路。