《数据中台架构——企业数据化最佳实践》

前言数据中台是企业数据化建设的支撑平台,是企业数据化的规划平台,是企业数据化建设的驱动器。数据中台可以解决传统企业数据化建设的整体规划和架构问题,可以积极地帮助企业建设数据团队,尤其是数据团队中的数据运营团队。数据中台还可以对企业数据化工作的几个重要部分进行有机整合和串联,让各个部分协同工作,相互促进。数据中台产品及解决方案服务商袋鼠云副总裁张旭带领的数据团队基于十几个行业头部企业的数据中台项目成功落地经验编写了《数据中台架构——企业数据化最佳实践》(张旭,戴丽,訚赛华等著,电子工业出版社出版)。本书解答了数据中台是什么、数据中台的价值是什么、数据中台如何帮助企业腾飞、企业具备数据中台的建设条件吗、应该如何建设数据中台、数据中台在哪些行业中有成功的应用、建设数据中台需要哪些软件支撑。 


一企业数据化1.1企业数据化建设的三个层次(1)看清业务:全面了解昨天发生的事(2)洞察细节:敏捷掌控当前发生的事(3)智慧智能:对未来的事情提出预测和建议1.2企业数据化建设的五个部分


(1)数据资源:数据资源是指企业在信息化建设中产生的数字化数据、存储在硬盘中或者在网络中流动的0和1数据。它们可能是有价值的,也可能是暂时尚未被找到应用价值的。

(2)数据资产:数据资产是指进入了数据仓库,被约束到了一个统一的模型之中,在各种需求的驱动下,可以产生数据价值,进行变现的资产数据。

(3)数据应用:数据应用是指在数据资产中进行各种计算所产生的结果被通过各种途径输送到业务场景中,为业务人员所使用。

(4)数据治理:数据治理存在于数据资源、数据资产、数据应用等各个层面,为整个数据流动的链条提供质量良好的数据。

(5)数据运营:数据运营是一个把产生的结果数据发挥最大业务价值的过程,这个过程主要消除的是业务和数据间的鸿沟,让业务能够用好数据,让数据体系能够产生业务更加希望获得的数据。

1.3企业数据化建设的七种价值
(1)提升效率:数据应用能够在很多业务场景中帮助企业提升效率,甚至通过一些以前没有掌握的数据大幅提升效率。

(2)降低成本:数据化本身就有对业务的监控功能,通过打破信息的壁垒来降低成本是数据应用价值的一种体现。

(3)增加收入:在传统商业中,企业通常会利用信息差来盈利。在企业逐步数据化的过程中,数据可以在多个方面支撑企业增加营收收入。

(4)控制风险:即使监控的算法模型只有高级业务人员能力的80%,最终发挥的作用也会远远大于人工操作。

(5)管理创新:在企业全面数据化的基础上,企业的很多新的管理构想得以被支撑,甚至很多新的管理方法和手段也基于数据平台的建设被发明出来。

(6)业务创新:业务创新是指利用数据进行业务上的创新,我们可以向电商行业多多借鉴。

(7)数据业务化:企业能够依托自身掌握的数据为社会提供数据服务是数据业务化的一种体现。

二建设数据中台必要性及五步法则2.1数据中台是什么
(1)数据中台应该为企业全面数据化建设进行整体蓝图的规划;

(2)数据中台应该汇聚全域数据;

(3)数据中台应该能够检验数据治理的成果;

(4)数据中台应该全面支持数据应用落地;

(5)数据中台可以包含企业数据化组织规划内容;

2.2数据中台的价值与建设的必要性
(1)数据中台是数据化建设的基础:数据中台的第一个价值是解决了全域数据汇聚的问题。

(2)数据中台是企业数据化建设的引擎:我们把企业数据化规划的责任放到了数据中台的范畴之内。与企业的IT建设相比,数据化建设更需要进行整体规划。

(3)数据中台将各个部分的数据工作有机串联:从数据资源层、数据资产层、数据应用层到业务价值,数据就像一条完整的供应链(如下图),从最初的原料一直到最后的成品。这条数据链从起初的设计阶段就贯穿各个环节,如果在某个点上存在问题,就需要逐个解决。数据中台就是先把这条供应链的流程画出来,然后一步一步地推动着它成为现实的支撑平台。

2.3数据中台建设五步法
数据中台建设五步法是我们在多个数据中台项目落地实践中总结出的一套方法论。在数据中台项目落地中,我们可以根据具体项目情况对其中的一个或者几个部分的内容做重点的加强或者减弱,甚至可以只在其中一个方面做重点突破和攻关。我们对数据中台建设五步法总结的目的是相对地规范企业数据中台建设的步骤和架构,五步法只是企业整体数据化建设的启动。我们希望通过这五个标准的步骤,全面启动企业数据化建设,并且让这个过程不断地持续运行,最终达到当前技术和方法所能支撑的企业全面数据化的胜利彼岸。

第一步:数据资源的盘点与规划

数据化的基础是信息化或者信息化所产生的数据。这些数据本就有数据化的含义,同时这些数据又会进入数据化框架体系,继续通过计算产出更多的数据和更大的价值。所以,对企业数据资源的盘点是数据化建设的前提和基础。一份完整、准确的数据资源是后续数据化建设的有力保障。

数据资源的盘点与规划需要达到以下目的:

(1)对现有数据资源盘点和统计。

(2)对企业可以拥有或者应该拥有的数据资源进行规划。

(3)构建盘点体系并使用必要工具,保证盘点的成果能够始终与真实情况相符。

第二步:数据应用规划与设计

企业要基于现有的技术条件和方案,进行相对完整的数据应用规划。这个步骤可以回答如下问题。

1. 企业中有哪些数据需求

我们要从业务线、业务层级到最细粒度的岗位,梳理数据需求。

2. 企业应该构建哪些数据应用

我们要围绕数据需求进行数据应用的整体规划和设计。

3. 应该按照什么顺序实现这些数据应用

我们要对数据应用建立评估模型,评估的维度包括数据应用是否可以实现、数据应用的业务价值、数据应用的实现成本这三个主要方面。通过评定结果,我们可以确定数据应用的实现路径。

第三步:数据资产建设
数据资产的建设要依托数据中台的核心产品完成。数据资产是企业数据化建设的关键基础。所有的数据化建设最后都以数据资产为基础,并且围绕这个基础展开。数据资产将是企业在全面数据化建设前期中投入最多、见效最慢的基础层模块。关于数据中台的种种探讨和争议以及妥协的很大一部分原因是这个基础建设庞大、复杂和投入高。 

数据资产建设的内容包括以下几个方面。

1. 技术建设

(1)产品选型。产品选型包括如何选择数据中台产品、数据中台产品应该具备的功能以及技术参数指标。

(2)技术架构设计。技术架构设计包括数据中台产品如何部署、如何替换传统的数据仓库或者与之并行、数据中台如何抽取当前的应用数据。

2. 标准和数据仓库模型构建

(1)建模及开发规范。建模及开发规范包括数据仓库模型设计规范的制定,数据开发规范的制定,如何避免当前较为常见的数据开发混乱、难以运维的情况。

(2)数据建模。数据建模包括进行数据仓库模型构建,并提交评审。

3. 数据抽取、数据开发、任务监控与运维

(1)数据抽取。数据抽取包括从数据资源层抽取数据进入ODS层。

(2)数据开发。数据开发包括进行数据任务开发,进行数据清洗、数据计算。

(3)任务监控与运维。任务监控与运维包括监控所有数据任务,对异常和错误任务进行必要的人工干预和处理。

4. 数据质量校验

数据质量校验包括对当前发现的数据质量问题进行校验和处理,推动数据治理工作开展和持续优化。

5. 数据应用支撑

数据应用支撑包括为当前的数据应用开发提供支撑开发平台。

第四步:数据应用的详细设计与实现
不管是使用瀑布模型还是敏捷模型,数据应用的设计大体上都可以遵循传统信息化应用设计的过程和理念。数据应用中的数据开发一般在数据库或者数据仓库中完成。数据应用的内容展示可以采用BI分析工具展现,例如可视化大屏或者定制化开发应用。数据应用还可以通过API接口服务提供数据成果,让其他外部应用按需调用。数据应用的开发与传统信息化应用的开发有以下不同之处。

1.数据应用关注数据源的内容和质量

我们在数据应用实施前应该充分了解企业当前的数据源情况,包括数据种类、每种数据的具体属性、数据内容的质量等问题。大部分落地失败的数据应用,都是由数据源的各种问题引起的,比如数据缺失或者数据质量问题。

2.复杂的数据开发需要不断调优和迭代

随着机器学习、深度学习等算法的引入,数据模型的构建手段越来越丰富。但是在通常情况下,最终业务价值的产生是一个复杂的过程,不仅需要数据的支撑,还需要管理的配合。

3.数据应用的结果数据的验证工作量占比高

论证数据结果的正确与否或者评估数据应用的效果,是一项费时、费力的工作。即使相对简单的指标计算,最后也经常会占用全部过程中1/3以上的时间进行正确性验证。甚至很多算法类项目,需要提前构建成果评估模型,并首先获得甲方企业的认可,然后才能开始进行数据开发。

4.数据应用的运维难度大

因为数据中的各种异常情况往往是不可知或者意想不到的,所以数据运维需要有强大的人工保障,以保持任务的运转。

5.数据应用的成果需要运营

数据应用的开发完成只是数据发挥价值的第一步,如何让业务部门理解模型、用好数据才是后续的关键。尤其是在刚刚引入新的数据,且尚未显现业务价值的时候,企业更需要对数据进行深入运营。

第五步:数据化组织规划
企业数据化应该是在未来一个时期内具有企业战略高度的事情,数据化需要一个具有同等战略高度的组织负责推进。无论是从传统的IT部门转型还是由战略部门或者类似部门介入都是很好的选择。组织是保障数据中台顺利落地的一个核心,也是推动企业数据化进程的人员抓手。

三数据资源盘点与规划3.1数据资源盘点在企业中,数据资源分散在众多地方,我们可以通过对这些数据资源的分类来认知和寻找它们。同时,数据资源的分类也可以是多种类、多视角的。我们可以按照数据资源的类别进行数据资源盘点。


3.2数据资源规划当我们充分了解了企业当前的数据资源时,更应该结合对企业数据化的理解和以往的建设经验,对数据资源进行合理规划,以保证数据应用中的结果数据产生和业务价值的实现。
四数据应用规划与建设
1.数据应用规划

企业的数据应用规划工作,能够让企业在开始进行全面数据化建设之初,对可能开展的数据应用进行相对系统的规划。数据应用规划工作的开展也可以让企业更加准确地评估数据化建设的投入产出比。

2. 数据应用建设
深入认知数据应用的建设过程、使用恰当的工具、进行规范的过程管理与开发可以有效地提升开发效率和节约开发成本。

五数据资产建设的步骤
1. 产品选择
数据资产建设需要一个或者一系列软件作为支撑。我们把这些软件统称为数据平台。数据最终会存储在数据平台中,与数据相关的操作(比如,数据抽取、数据清洗、数据开发、任务运维等)都会在这个平台上进行。如何选择数据平台产品关系到企业未来数年数据化工作的开展,是一项非常严谨的工作。

2. 技术方案设计
与数据资产相关的技术方案设计包含数据平台的部署方式、数据平台与其他应用的关系、数据平台与现有数据仓库的关系等内容。如果数据平台是云化部署的,就还需要制定上云技术方案。

3. 数据资源了解
我们可以通过数据资源盘点工作充分了解企业的数据资源情况。

4. 数据仓库模型设计
我们可以通过对企业业务的了解和对数据资源情况的了解构建数据仓库模型,同时基于对企业数据化未来的发展规划选择合适的数据仓库模型设计规范。

5. 数据开发规范制定
我们要执行明确的和可监控的数据开发规范。数据开发规范将有效地避免传统数据开发的无序现象,避免数据开发的冗余和不可控现象,避免数据资源和计算资源的浪费。

6. 数据仓库建设
我们要抽取数据、清洗数据,进行数据任务开发,完成数据仓库的建设。

7. 数据应用支撑
当企业的数据应用需求明确后,我们要在数据资产层中做数据应用的数据相关部分的开发工作,同时通过独立应用或者数据API的形式构建数据应用的展示层。

六数据应用实践案例
在房地产行业、鞋服行业、乳制品行业、新零售行业和人力资源领域都有相关案例。下面介绍一个房地产行业的案例。

场景名称:房地产楼盘产品复盘

1.背景介绍
房地产企业在拿地过程中都会进行严格的设计和策划,包括楼盘的类型、风格、受众、定价、营销策略和方式等。尤其是楼盘的受众,会直接影响楼盘的营销策略和渠道。但是在以往的房地产项目销售结束后,房地产企业却很少关注最终的销售结果与策划时的偏差。

2.依赖数据
业主的基础信息、外部人群群体画像、投资评测和营销信息。

3.数据方案
(1)在楼盘销售后获取所有业主的基础信息。(2)对接外部人群群体画像服务公司。(3)获得当前业主的详细画像信息,如年龄结构、学历结构、家庭结构、财务结构等信息。(4)将业主的详细画像信息与投资评测和营销信息对比,找出差异并分析问题。(5)总结问题出现的原因并将其应用在后续拿地和规划中,避免同样问题出现。
4.应用效果
我们对当前已经销售的楼盘进行了全面的复盘和分析,发现在销售过程中有很多政策和行情干扰因素,甚至当时的定位和最终销售结果偏差较大,也发现了营销渠道的偏差,以后对类似楼盘的营销需要进行适当的调整。其他行业的类似产品复盘工作也会对产品的研发设计工作起到巨大的借鉴作用。

七数据化组织规划
1. 数据化组织规划的必要性
企业内的数据化组织需要能够支撑企业的数字化战略。通过系统的数据化组织的规划工作,我们可以知道如何构建、如何定位这个组织。
2.数据化组织的定位与职责
数据化组织更应该为企业的发展、创收、创新提供更强有力的支持和动力。
3. 数据化组织的工作内容与边界


4. 数据化组织的岗位设置

八数据中台与数据质量企业的数据质量往往在准确性、合理性、一致性、重复性、及时性和完备性方面存在一定的问题。对于数据质量的提升,以往的做法是在数据仓库中进行各种“清洗”操作,但是这种方法治标不治本,我们寄希望于通过数据质量管理,进行治本的操作。(1)用数据模型规范提升数据质量(2)用数据管理提升数据质量(3)用数据共享提升数据质量(4)清洗历史数据提升数据质量(5)主数据管理提升基础数据质量九数据中台建设策略选择9.1数据中台建设的策略选择


策略1:以数据中台的咨询和设计工作启动企业数据化建设(规划先行、优先设计)

策略2:通过直接建设数据资产层支撑企业数据化建设(中台为主、构筑平台)

策略3:以数据应用试点的业务价值推动企业数据化建设(应用切入、价值引导)

9.2数据中台建设的步骤(1)前期沟通:企业可以对所在的行业情况、自身情况进行相对完整和详细的介绍,以便数据中台服务商了解。数据中台服务商应该向企业介绍数据中台的通用解决方案和有针对性的行业解决方案,以及实施的方法论和成功案例等内容。(2)微咨询:微咨询是一种敏捷版的数据中台咨询规划服务,如果企业的规模较大、业务复杂,那么可以启动相对正式的和完整的咨询工作。(3)数据中台项目启动及环境搭建:项目组需要根据数据中台建设的策略确定组织和干系人。如果是单纯的数据资产层平台构建,那么要以数据化组织为主要负责部门,其他部门配合基本就可以完成整体工作。如果数据中台建设较为关注企业管理,那么数据化的管理一定要由企业高层领导甚至一把手介入。如果在数据中台建设中较为关注数据对业务的支撑,那么项目组需要明确数据中台的应用点和受益部门。(4)数据应用设计、数据仓库设计:如果我们能够把设计规范在产品中做部分的固化和强制性限定,那么有利于标准的长期执行。(5)数据开发、数据应用开发与数据结果核对。(6)数据运营:企业和数据中台服务商要共同制定数据应用的效果评估体系。数据运营团队需要不断地从事协调和推动工作,以确保数据应用的效果提升。十数据中台的软件支撑
平台的整体架构如下图。

 1. 计算存储引擎

计算存储引擎是平台的核心组件,所有的数据计算和存储都在这个组件中完成。当前平台采用的数据计算和存储引擎是基于大数据技术的计算存储引擎。

2. 数据开发平台
数据开发平台可以有效地提升开发效率,降低开发的复杂度和难度。

3. 数据科学平台
数据科学平台能够帮助数据开发人员快速使用多种科学算法,加速算法开发过程。

4. 数据资产平台
数据资产平台包括数据资产管理套件和数据质量管理套件。

5. 数据服务引擎
(1)数据共享服务平台:数据共享服务平台可以快速生成数据API,统一管理API服务,帮助企业提高数据服务发布效率,提升数据服务管理能力和对数据服务使用的权限管理能力。

(2)数据分析引擎产品:数据分析引擎产品可以实现海量级数据秒级查询,满足大数据实时分析需求。

(3)标签引擎产品:标签引擎产品是实体画像工具,对实体进行画像和打标签,支撑业务端对实体的圈选和使用。

(4)数据应用规划产品数据应用规划产品是支撑企业数据化规划的工具,可以实现在线规划、成果可视化,为企业数据化指明发展方向,让企业的各个部门、各条业务线对数据化有清晰的认知。

结束语
数据中台是实现企业全面数据化的一个解决方案,是一套支撑企业全面数据化的架构,会成为企业开展全面数据化的基础设施。对于拥有成熟的主营业务、业务场景更复杂、投资评估更谨慎的传统企业而言,互联网的数据中台理论体系需要进行再次升级才能够支撑其全面数据化建设工作。


----------------------------------- 文章来源:文章来源:《数据中台架构——企业数据化最佳实践》_51CTO博客_数据中台架构

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
推荐,最强大数据学习与最佳实践资料合集,基础+架构+治理+案例,共100份。 一、基础篇 快手EB级HDFS挑战与实践 Hive任务开发规范 一文看懂Hadoop生态圈 资料-CentOS7搭建Hadoop-2.7.7集群 ClickHouse官方中文文档 ETL流程、数据流图及ETL过程解决方案 Google-MapReduce中文版_1.0 Hadoop安装及分布式部署 Hadoop精选面试题和MapReduce编程企业级编程实践 HDFS-part2-原理详解 HDFS核心内容及命令-2020 hive安装 hive语法和常用函数 Kafka安装 kylin安装 mapreduce调优指南 sqoop安装 二、架构篇 Flink-1.11 Hive集成与批流一体 ClickHouse在苏宁用户画像场景的实践 优酷大数据 OLAP 技术选型 阿里数据湖选型 各种系统架构图与详细说明 关于BI工具选型的参考依据 Apache Doris在京东搜索实时OLAP中的应用 ClickHouse官方中文文档 ClickHouse原理解析与应用实践 Doris竞品对比 Doris在美团外卖数仓架构中业务实践与改进思路 DorisDB原理剖析 和应用实践篇2021 Flink 流批一体的技术架构以及在阿里的实践 Flink实时仓库实践 Hadoop开源相关,Flink,Kylin等集群搭建2021 KylinCloud+Hudi实践 三、数仓篇 传统数仓与大数据数仓区别 模板-事实表梳理 模板-维度梳理 模板-业务梳理 模板-指标体系梳理 模板1-数据仓库项目计划 模板2-命名规范 模板3_访谈提问和沟通记录单模板 模板4_公共数据资源管理调研模板 模板5_公共数据资源管理分析模板 模板6-报表需求梳理 内部分享-基于 Hudi 和 Kylin 构建准实时高性能数据仓库 商业银行数据仓库系统V2.0 数据仓库建设方案 数据仓库建设规范模板 数据仓库整体设计方案模板 Hadoop构建数据仓库实践 四、治理篇 快手从模型规范开始的数据治理实践 第12章元数据管理-DAMA-DMBOK:数据管理知识体系 权限管理设计方案 数据安全模板-访问权限梳理表 数据治理服务解决方案 数据治理及数据资产创新实践-京东 万振龙:数据治理与大数据平台设计 主数据管理实践白皮书(1.0版) Apache atlas使用说明文档 atlas安装 CDH启用kerberos身份认证和sentry权限管理 DAMA-部委级数据治理项目经验分享 GrowingIO 2020指标体系与数据采集 GrowingIO公开课:搭建业务+数据一体的指标体系 IBM 数据治理统一流程 ISO38500 IT治理国际标准 ISO_IEC_38500_2008_version_PDF 五、案例篇 字节Apache Flink在字节跳动的实践 Hudi on Flink在顺丰的实践应用-蔡适择 滴滴Flink在滴滴出行的应用与实践 阿里基于Flink的实时计算平台 菜鸟在物流场景中基于Apache Flink的流计算实践 腾讯clickhouse实践 Clickhouse玩转每天千亿数据-趣头条 微博基于Flink的机器学习实践 快手稳定性体系建设 快手元数据平台建设及应用场景 快手指标规范及OneService平台实战 Apache Flink 在美团的实践与应用 快手服务治理平台+KESS+的设计理念和实战 快手数据中台建设:大数据服务之路 快手离线数据全链路分级保障平台建设 快手万亿级实时 OLAP 平台的建设与实践 ClickHouse在快手的大规模应用与架构改进 美团点评酒旅数据仓库建设实践 美团酒旅数据治理实践 美团外卖为何使用Doris创建数据仓库 内部分享-基于 Hudi 和 Kylin 构建准实时高性能数据仓库 实时数据产品实践——美团大交通战场沙盘 ClickHouse在苏宁用户画像场景的实践 腾讯云clickhouse性能调优实践 融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系 ClickHouse 在头条的技术演进 Doris的用户画像人群应用-会议组 Doris在美团外卖数仓架构中业务实践与改进思路 Flink 在 OPPO 的平台研发与应用实践 Flink实时仓库实践 Flink在滴滴的应用实践
数据中台架构——企业数据最佳实践PDF是一本关于企业数据实践指南。该指南介绍了数据中台架构的概念和作用,以及在企业数据过程中的最佳实践方法。 在这本指南中,首先对数据中台架构进行了详细的介绍。数据中台是一种将企业内外部数据集中管理和应用的架构模式。它通过统一的数据仓库、数据治理和数据服务层,实现了数据的集中管理和共享,提供了高效的数据支持和应用的基础设施。 指南还详细介绍了数据中台的组成部分和关键技术。数据中台包括数据采集、数据清洗、数据仓库、数据治理和数据服务等模块。指南提出了构建数据中台最佳实践方法,如采用数据架构数据流水线技术和分布式计算等。 此外,指南还强调了数据中台企业数据中的重要性和优势。数据中台能够实现数据的一致性和准确性,提供了高质量的数据支持和决策分析能力。它还可以加速企业创新和业务发展,提升企业竞争力和运营效率。 在最后的部分,指南提供了落地数据中台实践经验和案例分析。通过实际的案例,指南展示了如何根据企业的特点和需求,制定适合的数据中台架构和实施方案。 总之,《数据中台架构——企业数据最佳实践PDF是一本详细介绍数据中台架构最佳实践方法的指南。通过学习这本指南,企业可以了解数据中台的概念和作用,掌握构建数据中台的关键技术和方法,并且通过实践案例的分析,获得落地数据中台实践经验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值