数据中台-架构、构建与体系建设

数据中台架构

数据中台要求全企业共用一个数据技术平台、共建数据体系、共享数据服务能力。实际上一个企业中由于各个业务线发展不均衡,各自都有独立的数据处理架构,导致共享数据非常困难,所以要构建数据中台不仅是对技术架构的改变,同时还是对整个企业业务运转模式的改变,需要企业在组织架构和资源方面给予支持。数据中台是一个企业战略行动,绝非一个项目组或者一个小团队就能做的,需要了解整个企业的业务情况,对业务进行梳理,还需要技术支撑、组织的支撑,否则很难推行下去。

数据中台构建方法论

数据中台的建设内容包含技术体系、数据体系、服务体系、运营体系四大体系。

技术体系

技术体系是构建数据中台的基础支撑,对于技术体系而言包括两部分:大数据存储计算技术和数据中台工具技术组件。
大数据存储计算技术包含:Hadoop、Spark、Flink、Clickhouse等技术,企业一般不会自己建设,只需要进行合理的选型即可。
数据中台工具技术包含:数据汇集、数据资产管理、平台服务管理工具等相关技术。

数据体系

数据体系是指全企业的数据通过各种方式汇聚到数据中台,在数据中台中按照一定的建模方式进行加工处理,形成企业的数据资产体系。不同企业业务不同对应的数据不同,当然构建的数据体系内容也不同,但是建设的方法都是类似的。

服务体系

数据中台与大数据平台最主要的区别是数据中台中数据能方便的以服务化的方式支撑业务。服务体系是通过中台的服务组件能力,把数据变为一种服务能力。例如:客户微观画像系统、信用评估服务、风险预警服务等,让数据能够方便的参与到业务中去并为业务带去价值。

运营体系

运营体系是数据中台的守护者,通过运营体系保证整个中台的健康、持续运转。运营体系包含平台资源占用监控、数据质量监控、数据价值评估等,其目标是让中台持续健康运转,产生持续价值。

结合以上构架数据中台四大体系,构建数据中台可分为如下5个步骤,如图所示:
在这里插入图片描述

1)理现状
梳理企业已拥有的数据、业务特点,使用的技术,部门等企业组织形态等现状。
2)立架构
架构中包含“组织架构”、“业务架构”、“技术架构”、“应用架构”、“数据架构”。
组织架构:组织架构主要是保证中台项目的顺利落地需要企业考虑的整体组织保障,其中角色主要包含:业务人员、IT人员、供应商、相关负责人。
业务架构:保证数据中台能够适用于企业业务的业务管理流程。
技术架构:主要针对数据中台中数据存储、计算相关技术选型。
应用架构:应用架构就是根据业务设计哪些数据服务。
3)建资产
数据资产建设包含数据汇集、数据仓库建设、数据治理、标签体系建设,其中最重要的就是标签体系建设,所谓标签体系建设就是面向具体对象构建的全维度数据标签,通过标签体系可以方便地支撑应用。
4)用数据
将通过数据中台构建的数据资产通过服务化的方式应用到具体的业务中,发挥数据价值。
5)做运营
运营主要包含数据监控审计、数据价值评估等内容,通过数据运营,让更多的人和业务感知到数据的价值。数据中台构建稳定之后,一般会循环3~5步骤,不断挖掘数据和业务场景的结合点。

由以上建设数据中台内容体系来看,建设数据中台除了有对应的方法论之外,还需要有对应的支撑技术、组织架构。“方法论”、“支撑技术”、“组织架构”实际上是建设数据中台的“三板斧”,缺少任何一个条件都不能建设好中台。

数据中台功能架构

数据中台总体架构图如下:
在这里插入图片描述
下面简述以上数据中台的各个部分,可以参照后续小节分析内容。
数据汇集
数据汇集是数据中台数据接入的入口,所有数据来自于业务系统、日志、文件、网络等,这些数据存储在不同的网络环境和存储平台,通过数据汇集工具可以将这些数据汇集到数据中台中。
数据开发
数据汇集到中台之后,数据都是按照原始状态堆砌在一起,业务无法使用,数据开发可以通过一整套数据加工及管理工具,将数据进行清洗处理。
数据体系
此部分主要是大数据平台中数据仓库构建内容。
数据资产管理
通过数据体系建立起来的数据资产较为偏技术,业务人员比较难理解,数据资产管理是以企业全员更好理解的方式把企业数据展现给全企业人员。数据资产管理包括对数据资产目录、元数据、数据质量、数据血缘、数据生命周期等进行管理和展示。
数据服务体系
数据服务体系就是把数据变为一种服务能力,通过数据服务让数据参与到业务,数据服务体系是数据中台存在的价值所在。数据中台服务提供快速的服务生成能力以及服务的管控、鉴权、计量等功能。
运营体系和安全管理
运营体系和安全管理是数据中台健康持续运转的基础。建设内容主要涉及企业资产管理和数据安全,使数据越用越多,越用越活。

数据中台技术架构

数据中台的技术架构如下:
在这里插入图片描述

企业构建数据中台评估

数据应用成熟度四个阶段
每个企业的发展情况不同,到底要不要构建数据中台?我们可以从企业数据应用的成熟度来评估企业要不要构建数据中台。数据应用能力成熟度可以总结为统计分析、决策支持、数据驱动、运营优化四个阶段,各自特点如下:
在这里插入图片描述
以上四个阶段数据应用能力成熟度依次增高,数据应用能力成熟度越高,则代表数据对业务的支撑能力越强,应用能力成熟度越低,则意味着业务对数据的依赖程度越低。企业数据应用能力程度越高构建数据中台越有价值,下面分别介绍四个阶段。

统计分析阶段

1979年Oracle发布商用数据库1.0版本、微软公司在1989年发布了SQL Server,1996年MySQL发布1.0版本,20世纪90年代随着UNIX服务器和x86服务器的普及,数据库解决方案进入市场,开始大火,数据库的建设成本和技术门槛大幅降低,越来越多的企业迈入IT信息化时代,实现生产和管理自动化的系统不只是大型企业考虑的问题,越来越多的中小型企业开始尝试利用信息系统来进行流程和管理优化,因此MRP(material requirement planning物料需求计划系统)、ERP(enterprise resource planning 企业资源计划平台)、CRM(Customer Relationship Management,客户关系管理)、OA(Office Automation,办公自动化)等企业管理系统的建设成为21世纪初企业信息化建设的一股热潮。
这个时候很多企业往往不会只建一个业务系统,而是针对公司每条业务线都建立一个业务系统,这些系统将业务的开展情况通过数据保留下来,但是使用数据时候出现以下问题:
第一:业务从线下迁移至线上之后,每天产生大量业务数据的同时,不可避免的出现一些系统或者数据的问题,这些问题很多情况都需要专人来监控、管理和维护。因此公司设立了一些岗位:数据库管理员(Database Administrator,DBA)或数据库工程师(Database Engineer ,DBE),通过DBA/DBE来对公司的底层数据进行设计、管理和运维。
第二:业务系统无差别记录了业务流程中每个环节的数据,并存放在数据库中的一张张表中,导致数据库中分散存放了各式各样的表,并且有些表可能还是脏数据,由于表太多,业务人员和管理人员无法从这些表中找打对应的原始数据并形成最终结果,所以企业又多了一类岗位:业务数据分析师,其职责主要是通过工具将底层存放在数据库中的原始数据变成一份份图表或者报告,从而从数据视角发现当前企业存在的问题。
该阶段主要是以业务需求为导向,通过IT系统的建设实现业务过程的流程化、自动化,通过单一维度的数据统计分析进行业务总结。该阶段主要特征可以参照上图。

决策支持阶段

随着企业发展,管理者们发现数据的应用不能仅仅停留在单系统上,不能充分发挥数据的价值,这时,企业对数据的需求逐渐开始向更全面、更准确、更贴合业务管理决策的方向演进。
面对来自不同系统的数据,口径、规范不一致,应该如何处理,最简单的方案就是寻找专业的团队,使用专业的工具来对不同系统中的数据进行抽象和提炼,形成一套指标体系,通过这条指标体系进行数据分析,实现对整个公司运转情况的管理,正是沿着这个思路很多企业构建了企业级的数据仓库,并同时开始了BI工具、大屏可视化等系统的建设,这些可以将大量复杂的原始数据抽象为指标,以可视化的方式呈现在决策者面前,为决策提供决策支持。
该阶段主要是企业在业务系统建设的基础上,基于业务目标有意识地进行数据收集、管理、分析,通过企业级数据仓库建设,为企业业务提供决策支持。关于此阶段的主要特征可以参照上图。

数据驱动阶段

无论是在“统计分析阶段”还是“决策支持阶段”,业务的运转和分析结果数据之间依然是相互隔离的。因为分析结果主要给管理者来看,然后通过人工对业务开展进行不同程度的干预,最终实现业务优化。
随着企业业务数据的不断丰富,DT时代的到来,以及大数据、人工智能技术的发展,在应对海量原始业务数据不能直接被业务使用问题时,业务部门根据自身情况,自建大数据团队以及相应的数据处理能力,通过汇聚、清洗、建模、挖掘等方式,将从数据中挖掘的价值服务于业务,从而让数据驱动业务边的更精准、更有效。
最为典型的数据价值应用于业务场景就是面向个体用户进行千人千面的推广展示和精准营销业务:企业首先根据需求,收集千人千面所需要的数据,打通所有相关数据后,通过算法的能力,实现对用户偏好的挖掘,从而实现不同客户所得到的服务是专门量身定制的。例如一些新闻app、抖音,当发现你喜欢一类新闻或者视频时,就不断的推送这类信息,吸引你不停看,从而提升使用app的时长。
该阶段主要是企业在大数据背景下,开始基于海量数据积累,利用大数据相关技术进行数据的深度挖掘和分析,通过数据驱动业务发展,为业务应用提供数据服务,实现业务与数据的深度融合。

运营优化阶段

前面所讲的“数据驱动阶段”,在特定的场景下,数据已经与业务紧密结合,数据在业务运转过程中直接产生价值。
但是,由于数据应用都是独立建设,没有从全局考虑,企业在数据应用的过程中,经常会遇到标准口径不一致(例如数据分析后用户为男,给不同部门使用时,A部门使用gender表示,B部门使用sex表示)、内容重复建设(例如:各个业务线都有独立数仓,烟囱式开发),各业务数据无法融合产生更大的价值(例如:各个业务线之间需要数据关联,当前不能很好的关联产生更大业务价值)、企业数据价值无法被业务快速应用等问题。因此,企业开始考虑从全企业视角进行数据能力的输出,有些企业把这个定义为企业数据资产建设,以数据来驱动企业升级转型。
这个过程涉及汇聚各类企业数据资产、消除数据孤岛、将数据进行融合,构建统一的数据资产,在构建过程中并进行数据治理,使数据资产符合生产要求,通过数据服务化的能力(就是接口)快速服务于业务。同时,以上过程中针对数据资产的使用和内容进行运营优化,以使得企业数据越用越有价值,这就是数据中台的建设。
要想实现数据资产价值最大化,在构建企业数据资产运营时需要满足以下5个条件:
第一:能够追溯数据资产的形成过程,包括涵盖了哪些数据来源,经过了怎样的加工环节,涉及哪些业务环节和部门等。(血缘追踪)
第二:能及时获取到数据资产当前状态,尤其是数据质量和安全情况,如:更新频率、空置率等。(数据质量和安全平台)
第三:能够知道数据资产被哪些业务调用了,以通过建立数据闭环了解和追溯数据资产所带来的业务价值。(调用管理平台)
第四:能够对整个数据中台从数据采集到数据应用的整个链路建立监控体系,便于及时发现和排除故障,保障数据资产的稳定性。(任务追踪)
第五:建立丰富的数据内外部共享和服务渠道,实现数据价值释放和交换。(交换平台)
构建数据中台时,会从组织架构层面成立单独的数据资产管理委员会来统筹数据资产的管理工作,包括牵头指定数据资产的管理政策、拟定数据资产运营规则并监督各个部门执行,同时负责整个数据资产平台的运营、组织和协调工作。
该阶段主要是企业基于大数据和人工智能相关技术之上,构建一套源源不断把数据变成资产并服务于业务、让数据用起来的机制,形成数据闭环,通过运营优化持续发挥数据业务价值。

数据汇集-打破企业数据孤岛

在这里插入图片描述
要构建企业级数据中台,第一步就是将企业内部各个业务系统的数据实现互联互通,打破数据孤岛,
第二步主要通过数据汇聚和交换来实现。

  • 企业采集的数据可以是线上数据采集、线下数据采集、互联网数据采集、内部数据采集等。线上数据采集主要载体分为互联网和移动互联网两种,对应有系统平台、网页、H5、小程序、App等,可以采用前端或者后端埋点方式采集数据。
  • 线下数据采集主要是通过硬件来采集,例如:WiFi信号采集、摄像头、传感器、信令数据采集、图像视频采集等。
  • 互联网数据采集就是说的网络爬虫,当企业的内部信息不足时,可以考虑利用外部互联网数据与内部数据进行有效融合,从而让内部数据在应用上有更多的价值。
  • 内部数据汇集主要是针对业务库中的数据通过工具进行汇集。
    一些公司也会开发自己的数据交换产品来屏蔽底层工具的复杂性,以可视化配置的方式提供给企业用户。

数据开发-提取数据价值

在这里插入图片描述
数据开发涉及的产品能力主要包括是三个部分:离线开发、实时开发、算法开发。
离线开发主要包括离线数据的加工、发布、运维管理,以及数据分析、数据探索、在线查询和即席分析相关工作。
实时开发主要涉及数据的实时接入和实时处理。
算法开发主要提供简单易用的可视化方式实现数据价值的深度挖掘。
针对以上三个部分,构建数据中台时可以使用原生的技术来实现也可以通过数据开发套件对大数据的存储和计算能力进行封装,通过产品化的方式让用户更容易的使用大数据。

数据体系建设

在这里插入图片描述
数据中台是企业数据汇集地,但并不是简单的数据堆积,而是进行分层建模,数据体系建设最终呈现一套完整、规范、准确的数据。数据体系建设就是大数据中数据仓库建设。如下图:
在这里插入图片描述

贴源数据层ODS(Operational Data Store)

贴源层又称操作数据层,对各业务系统数据进行采集、汇集,尽可能保留原始业务流程数据,与业务系统基本保持一致,仅做简单整合、非结构化数据结构化处理,或者增加标识数据等,不做深度清洗加工。

统一数仓层DW(Data Warehouse)

数据仓库层又细分为很多层,大致为:明细数据层DWD(Data Warehouse Detail)和汇总数据层DWS(Data Warehouse Service),与传统数据仓库构建一样,对全历史业务过程数据进行建模存储。

标签数据层TDM(Tag Data Model)

面相对象建模,对跨业务板块、跨数据域的特定对象数据进行整合,把各个业务板块、各个业务过程中同一对象的数据打通,形成对象的全域标签体系,方便深度分析、挖掘、应用。

应用数据层ADS(Application Data Store)

本层也可以叫DM(Data Market)数据集市层,按照业务需要从统一数仓层、标签数据层抽取数据,并面向业务提供特定数据,以满足业务及性能需求。
以上数据体系建设过程中数据的读取也有严格的规范要求,按照规范,贴源数据层直接从业务系统或日志系统中获取数据。贴源数据层的数据只被统一数仓层使用,统一数仓层数据只被标签层和应用数据层使用,最终所有业务使用的数据均来自于标签层和应用层。
在大数据数据仓库课程中我们详细学习了数据仓库的分层与构建,当时不涉及数据标签层,这里我们详细介绍数据标签层。

数据标签层

统一数仓中的数据时按照数仓的维度规范建模,对业务数据按照主题域进行组织,但是同一个对象的各种指标信息分散在不同的数据域并且有不同的数据粒度。例如:

  • 用户数据,用户注册宽表信息中有用户注册渠道、性别、手机号码等信息。
  • 用户登录信息宽表中有用户连续登录天数、用户最后登录时间、用户累计在线时长等信息。
  • 用户订单信息宽表中有用户下单量、用户累计消费、用户最后下单金额等信息。

以上各种宽表中的各种信息涉及到了各个主题域,想要了解一个用户的全面信息,例如:了解用户手机号码、连续登录天数、累计消费金额信息,需要通过各种关联关系才能满足业务需要,数据使用成本高。而有时获取、分析用户的全面数据是多个业务的共同需求,例如:运营人员需要知道每个用户的年龄段、消费金额信息来制定营销活动,机器学习部门需要知道每个用户的年龄段、消费金额信息来训练模型等等。
在这里插入图片描述
那么在企业数据中台构建中,各个业务部门需要用到的这些共性数据(描述对象的全面数据)就可以通过标签数据层来满足,通过构建标签数据层可以做到企业精细化运营,例如:精准营销、精准推荐、用户画像、用户维护(针对用户群体进行研发用户偏好产品,吸引用户)等。注意:很多个业务部门经常共同使用到的指标就可以构建成标签数据。
标签数据层建设一方面让数据变的可阅读、易理解,方便业务使用,另一方面通过标签类目体系将标签组织排布,以一种适用性更好的组织方式来匹配未来变化的业务场景。

如何构建数据标签层

确定构建标签对象

进行标签建设首先要清楚对哪些对象建设标签,也就是明确对象,例如:对用户、对产品、订单等。经过对多个行业,多个标签体系建设来看可以把对象分为**“人”,“物”,“关系”**三大类。
“人”包括自然人、法人、消费者、消费者协会、电商企业等,表示可以主动发起行为的主体。
“物”包括物品、物体、仓库等,表示行为中被施与对象。
“关系”包括购物、运货、聊天、监管等,表示人物关系、人人关系、物物关系,包括行为关系、归属关系等。
明确了企业中对哪些对象进行构建标签就可以进行标签体系建设。企业中的对象非常多,不会对所有的对象都构建标签体系,企业需要什么对象的标签就构建什么对象的标签,常见构建标签体系的对象有客户、员工、用户、产品、设备等。一种对象标签体系的建设不会影响另外一种对象标签体系建设,可以同时对多个对象进行标签体系建设。

设计标签类目

企业业务需要使用的标签项一般都会非常之多,当标签项超过50个时,业务人员要使用或者查找标签变得非常麻烦,所以标签一旦多了之后,我们就需要设计标签类目,根目录就是前面提到到“人”、“物”、“关系”。根目录也叫一级目录,除了一级目录之外,按照所属关系还可以分为“二级目录”、“三级目录”,一般标签类目结构分为三级分层结构即可。
类目体系的层级构建尽量以用户最容易理解的方式进行展开,也可以根据各自业务来设计“一级目录”、“二级目录”、“三级目录”,这样可以方便数据开发者或者数据库管理员快速找到所需要的标签数据。
以下为标签类目设计示例:
在这里插入图片描述
以上表中对应的红色数字字符串可以存储在mysql关系型数据库中,如果企业数据标签量大,可以以每级别目录创建表,以K,V方式存储标签数据,存储目的主要是为了方便数据开发者或者数据库管理员快速找到所需要的标签数据,另外企业中如果构建了标签系统,也可以在标签系统中查询对应表进行级联展示。
以上表中对应的蓝色字体为在数据体系中标签层中对应的表名和每张表中对应的字段名称。标签表的建立可以和最后一级标签目录对应,也就是说最后一级标签目录对应一张标签表,当然这也不是固定死的,也可以非最后一级目录对应一张标签表,但是要避免一些标签表中标签字段过多,不均衡问题。这些标签字段对应的结果值都是从DWS层中进行跨主题域进行分析得到。
通常来说构建标签体系是指对象的标签类目+标签,标签体系设计的核心是标签类目设计(一级、二级、三级等目录),标签类目设计完成,整个标签体系的框架就有了,后面就是往每个叶类目下填充通过数仓DWS层可以加载出来的标签,进而完成整个标签体系的建设。

标签表实现

设计好标签类目之后,对应的标签表中的数据就是通过查询数据体系中的DWS层的数据,这个过程中涉及到跨多张业务宽表、多主题域的查询,将多个表结果按照全局统一的ID进行融合(例如:用户ID,用户身份证ID,手机号等),根据获取各个宽表中的数据,进一步按照业务规则判断,找到相应标签对应的值,存入标签表中。实际上一般的标签表中除了有对应的标签值之外都还会有全局统一的ID,这样方便后期查询使用标签表中的数据,为业务方赋能,提供更多的数据价值。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值