01-什么是数据中台

01-什么是数据中台

大数据的本质是数据的融合,把原来各自孤立的各个系统的数据进行融合、拉通,从而对海量数据进行采集、存储、计算、加工和融合。并且通过对已有的数据分析历史和预测未来。“一切业务数据化,一切数据业务化”,IT时代不断通过各种信息化系统把业务以数据的形式沉淀下来,在传统的烟囱系统开发模式下,企业内部形成多个数据孤岛。在互联网和移动互联网时代产生了公众号、小程序、APP的多种形式的信息化手段,从而加深了系统之间的数据隔裂。散落在各处的数据无法统一使用,更别说支持企业的经营决策,国内的大公司提出了数据中台的概念,数据中台的概念在大大小小的公司到处使用,可是什么是数据中台

1. 什么是数据中台

伴随着云计算、大数据、人工智能等技术的迅速发展,以及这也技术于传统行业的快速融合,企业数智化转型逐渐加快。
数字化转型成功的企业,其内外部交互以数据为基础。业务的变化快速反馈在数据上,企业能够感知并作出快速的反应,决策和预测都是基于数据制定。
理解数据中台就要从数据发展的历史来看。

商业智能(Business Inteligence)

商业智能诞生在上个世纪90年代,它是将企业已有的数据转化为知识,帮助企业做出经营分析决策。而数据分析需要聚合多个业务系统的数据。这促使数据仓库的概念出现。
在1991年出版的《building the data warehouse》中,数据仓库之父比尔·恩门(Bill inmon)首次给出了数据仓库的定义:

数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的,不可修改的数据集合。

列举电商的例子:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

主题域是业务过程的一个高层次的抽象,像商品、交易、用户、流量都能够成为主题域。可以理解成数据仓库的目录。数据仓库的数据一般是按照时间进行分区存放,一般会保留5年以上,每个时间分区内的数据都是追加写的方式,对于某条记录是不可以更新的。

数据仓库的设计方法

数据仓库的设计方法大概有两种:

  • 恩门
    恩门提出的是自顶向下的建模方法,基于各个业务实体和实体之间的关系,构建数据仓库。
    例如,在一个最简单的卖家购买商品的场景中,按照恩门建模的思维模式,首先你要理清这个业务过程中涉及哪些实体。买家、商品是一个实体,买家购买商品的一个关系。所以模型设计应该有买家表、商品表和交易表三个模型。
    在这里插入图片描述

  • 金博尔(kimball)
    kimball提出的是自底而上的建模方法,从数据分析的需求出发,把数据拆分为事实表和维度表,那么用户、商品就是维度而交易、库存、账户余额就是事实。

在这里插入图片描述

恩门的建模方法是从数据源开始构建,构建成本比较高,适用于应用场景比较固定的业务,比如金融领域,冗余数据少是他的优势.金博尔建模由于是从分析场景出发,适用于变化速度比较快的业务,比如互联网业务.由于现在的业务变化都比较快,所以我更推荐金博尔的建模方式.

传统数据仓库,第一次明确数据分析的应用场景应该用单独的解决方案去实现,不再依赖于业务的数据库.在模型设计上,提出了数据仓库模型设计的方法论,为后来数据分析的大规模应用奠定了基础.但是进入互联网时代后,传统数据仓库逐渐没落,一场有互联网巨头发起的技术革命催生了大数据时代的到来.

Hadoop到数据湖

进入互联网时代,有两个最重要的变化。

  • 一个是数据规模前所为有,一个成功的互联网产品日活可以过亿,就像你熟知的头条、抖音、快手、网易云音乐,每天产生千亿的用户行为。传统数据仓库难于扩展,无法承载如此规模的海量数据。
  • 另一个是数据类型的变的异构化,互联网时代的数据除了来自业务数据库的结构化数据,还有来自App、Web的前端埋点数据,或者业务服务器的后端埋点日志,这些数据一般都是半结构化的。传统数据仓库对数据模型有严格的要求,在数据导入到数据仓库前,数据模型就必须事先定义好,数据必须按照模型设计存储。

所以,数据规模和数据类型的限制,导致传统数据仓库无法支撑互联网时代的商业智能。

谷歌和亚马逊为代表的互联网巨头率先开始了相关探索。从2003年开始,互联网巨头谷歌先后发表了3篇论文:

  1. 《The google File System》
  2. 《MapReduce: Simplefied Data Processing on Large Clusters》
  3. 《Bigtable: A Distributed Storage System for Structed Data》

2005年hadoop的出现,大数据技术才开始普及。你可以把Hadoop认为是前面三篇论文的一个开源实现。

  • 完全分布式,易于扩展,可以使用价格低廉的机器堆出一个计算、存储能力很强的集群,满足海量数据的处理要求。
  • 弱化数据格式,数据被集成到Hadoop之后,可以不保留任何数据格式,数据模型与数据存储分离,数据在被使用的时候,可以按照不同的模型读取,满足异构数据灵活

随着Hadoop技术日趋成熟,2010年,Pentaho创始入James Dixon在Hadoop world 大会上提出了数据湖的概念,他提到:

数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。

企业可以基于Hadoop构建数据湖,将数据作为一种企业核心资产。

大数据平台

对于一个数据开发,在完成一项需求时,流程是把数据导入到大数据平台中,然后按照需求进行数据开发。开发完成以后要进行数据验证比对,确认是否符合预期,然后是 发不上线,提交调度。最后是日常的任务运维,确保任务每日能够正常产出数据。

  1. 数据集成
  2. 数据开发
  3. 数据测试
  4. 数据发布
  5. 任务运维

由于流程繁杂,为了提高数据研发的效率,和降低数据研发门槛,让数据能够在一个设备流水线上快速地完成加工。

大数据平台是面向数据研发场景的,覆盖数据研发的完整链路的数据工作台。

【图】

大数据平台按照使用场景,分为数据集成、数据开发、数据测试……任务运维,大数据平台的使用对象是数据开发。大数据平台的底层是以Hadoop为代表的基础设施,分成计算、资源调度和存储。

目前已有的计算引擎Hive、Spark、Flink和Impala。

这些计算引擎统一运行在Yarn的资源调度框架中,由Yarn统一调度分配资源。最新的研究方向中也有基于Kubernetes实现资源调度的,例如在最新的spark中,spark可以运行在Kubernetes上,可以实现在线和离线的资源混合部署。

数据存储在HDFS、Kudu和Hbase系统内。HDFS不可更新,主要存全量数据,HBase提供了一个可更新的KV,主要存一些维度表,Kudu提供了实时更新能力,一般用在实时数仓的架构中。

数据中台

业务发展前期,为了快速实现业务的需求,烟囱式的开发导致企业不同业务线,有着相同业务线的不同系统,系统之间的数据是隔裂的。数据隔裂的另外一个问题,就是大量重复计算、开发、导致的研发效率的浪费。
数据中台的核心是避免数据的重复计算,通过数据服务化,提高数据的共享能力,赋能数据应用。

因此需要一套机制,通过这套机制融合新老模式,整合分散在各个孤岛上的数据,快速形成数据服务能力,为企业经营决策、精细化运营提供支撑,这套机制就是数据中台

在这里插入图片描述

数据中台需要具备4个方面的能力。1. 数据汇聚整合 2. 数据提纯加工 3. 数据服务可视化 4. 数据价值变现,可以方便企业员工、客户、伙伴方便的应用数据。

1. 数据汇聚整合能力
  • 数据丰富和完善:对多样的数据源进行合并和完善
  • 管理简便:可视化任务配置以及丰富的监控管理功能
  • 数据集成与运营:数据中台能够接入、转换、写入或缓存企业内部多种来源的数据
  • 数据目录与治理:数据用户可以方便地定位所需要数据,理解数据(包括业务和技术治理)
  • 数据安全:确保数据的访问权限
  • 数据可用:数据用户可以简便、可扩展地访问异构数据,可用性和易用性高
  • 部署灵活:支持本地部署,以及公用云,私用云,混合云等多种部署方式。
2. 数据提纯加工

数据就像石油,需要经过提纯加工才能使用,这个过程就是数据资产化。

传统的数字化建设往往局限在单个业务流程,忽视了多业务的关联数据,缺乏对数据的深度理解。数据中台必须连通全域数据,通过统一的数据标准和质量体系,建设提纯加工后的标准数据资产体系,以满足企业业务对数据的需求。

  • 完善安全访问控制
  • 完善数据质量保障体系
  • 规范的、紧密结合业务的可扩展标签体系
  • 面向业务主题的资产平台
  • 智能的数据映射功能,简化数据资产生成
3. 服务可视化

数据中台必须提供便捷、快速的数据服务能力,让相关人员能够迅速开发数据应用,支持数据资产场景化能力的快速输出,以响应客户的动态需求。

  • 提供自然语言处理等人工智能服务
  • 提供丰富的数据分析功能
  • 提供友好的数据可视化服务
  • 便捷、快速的服务开发环境、方便业务人员开发数据应用
  • 提供实时流数据分析
  • 提供预测分析、机器学习等高级服务
4. 价值变现
  • 提供数据应用的管理能力
  • 提供数据洞察直接驱动业务行动的通路
  • 提供跨业务场景的数据应用
  • 提供业务行动效果评估功能
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值