数据中台建设与应用_教你五步建设数据中台

数据中台是当下非常热门的话题,可以解决企业重复造轮子的问题。虽然数据中台在互联网企业中已经有了多年的实践,但是对于传统企业来说还是一个比较新的话题。

数据中台的价值与建设的必要性

数据中台是数据化建设的基础

数据中台的第一个价值是解决了全域数据汇聚的问题,传统的数据仓库、数据中心,乃至数据湖都以解决这个问题作为核心目标。数据中台建设之所以从企业内的数据资源盘点做起,也是希望能够把这件事情做得更加完整和更有依据。同时,数据资源的大集中问题一方面是技术的问题,另一方面是成本和管理的问题。毕竟把每条业务线,尤其是相对独立的业务线的所有数据放到一个统一的地方,就像我们把手机交给老板保存一样,有一种隐私被暴露的感觉。但是只有经历了这个过程,数据应用才能够被支撑好,所展现的种种愿景才会得以实现。

同时,我们希望数据中台扮演更多的角色,比如数据应用规划、数据治理的成果检验、数据运营组织的规划等。这样,数据中台就能够作为企业数据化的核心角色和整体架构的角色,也只有这个角色才能够支撑得起企业数据化建设的重任。

数据中台还附带了技术升级的软件产品。是技术进步驱动了业务发展还是业务发展促进了技术进步一直是鸡生蛋还是蛋生鸡的问题。数据中台软件产品的技术领先性是毋庸置疑的。当这个产品的性价比能够与传统数据仓库或者开源大数据平台比肩的时候,它所带来的技术冲击力一定是巨大的。数据中台建设以更有力的技术产品作为支撑,毕竟当前的数据中台处理的数据量更大了,处理的数据类型更多了,对数据应用的要求更高了,服务种类更丰富了。

数据中台是企业数据化建设的引擎

我们把企业数据化规划的责任放到了数据中台的范畴之内。与企业的IT建设相比,数据化建设更需要进行整体规划。

(1)数据化工作是一个系统化工作。所谓系统化工作,就是涉及的方面很多,企业需要通过规划看到这些方面的关联。

(2)数据化工作更零散、更分散。数据化工作的成果很零散,也很分散,企业中的绝大多数岗位和业务场景都处于数据饥渴之中,哪些数据需要供应、哪些数据需要优先供应、哪些数据还无法供应这些问题都需要通过规划工作来回答。

(3)数据化工作的投入产出比需要完整评估。数据供应链路非常长,每个企业的情况、每条链路的长短和问题点都不同,很可能最终要获取我们认为的一条简单数据的代价非常大。

(4)数据化工作的基础建设工作投入巨大。数据治理和数据中台都是非常重的投入,是数据化的基础,这样的投入既是战略性的,又是一个巨大的工程,企业需要通过整体规划加以论证。

(5)数据化工作的成熟度相对较低。数据化相对于信息化的成熟度是低的,但是数据化却不应该经历信息化那种先无须建设,再重新规划,最后不停重组的过程。企业要想进行数据化建设可以先做整体规划,再逐步实现,同时可以不用把规划一次做完整,但是要具有不断迭代的体系和能力。

数据中台将各个部分的数据工作有机串联

从数据资源层、数据资产层、数据应用层到业务价值,数据就像一条完整的供应链(如图所示),从最初的原料一直到最后的成品。这条数据链从起初的设计阶段就贯穿各个环节,如果在某个点上存在问题,就需要逐个解决,而有的时候解决的方法不仅限于技术和数据,还需要采用标注、组织等综合手段。

3382706d27f96e82077792c4c5b0178f.png

数据中台就是先把这条供应链的流程画出来,然后一步一步地推动着它成为现实的支撑平台。当每条数据供应链被纷纷贯通,一个个节点被点亮时,数据应用的星空中就繁星点点了。

第一步:数据资源的盘点与规划

数据化的基础是信息化或者信息化所产生的数据。这些数据本就有数据化的含义,同时这些数据又会进入数据化框架体系,继续通过计算产出更多的数据和更大的价值。所以,对企业数据资源的盘点是数据化建设的前提和基础。一份完整、准确的数据资源是后续数据化建设的有力保障。

数据资源的盘点与规划需要达到以下目的:

(1)对现有数据资源盘点和统计。

(2)对企业可以拥有或者应该拥有的数据资源进行规划。

(3)构建盘点体系并使用必要工具,保证盘点的成果能够始终与真实情况相符。

第二步:数据应用规划与设计

企业要基于现有的技术条件和方案,进行相对完整的数据应用规划。这个步骤可以回答如下问题。

1. 企业中有哪些数据需求

我们要从业务线、业务层级到最细粒度的岗位,梳理数据需求。

2. 企业应该构建哪些数据应用

我们要围绕数据需求进行数据应用的整体规划和设计。

3. 应该按照什么顺序实现这些数据应用

我们要对数据应用建立评估模型,评估的维度包括数据应用是否可以实现、数据应用的业务价值、数据应用的实现成本这三个主要方面。通过评定结果,我们可以确定数据应用的实现路径。

第三步:数据资产建设

数据资产的建设要依托数据中台的核心产品完成。数据资产是企业数据化建设的关键基础。所有的数据化建设最后都以数据资产为基础,并且围绕这个基础展开。数据资产将是企业在全面数据化建设前期中投入最多、见效最慢的基础层模块。关于数据中台的种种探讨和争议以及妥协的很大一部分原因是这个基础建设庞大、复杂和投入高。

数据资产建设的内容包括以下几个方面:

1. 技术建设

(1)产品选型。产品选型包括如何选择数据中台产品、数据中台产品应该具备的功能以及技术参数指标。

(2)技术架构设计。技术架构设计包括数据中台产品如何部署、如何替换传统的数据仓库或者与之并行、数据中台如何抽取当前的应用数据。

2. 标准和数据仓库模型构建

(1)建模及开发规范。建模及开发规范包括数据仓库模型设计规范的制定,数据开发规范的制定,如何避免当前较为常见的数据开发混乱、难以运维的情况。

(2)数据建模。数据建模包括进行数据仓库模型构建,并提交评审。

3. 数据抽取、数据开发、任务监控与运维

(1)数据抽取。数据抽取包括从数据资源层抽取数据进入ODS层。

(2)数据开发。数据开发包括进行数据任务开发,进行数据清洗、数据计算。

(3)任务监控与运维。任务监控与运维包括监控所有数据任务,对异常和错误任务进行必要的人工干预和处理。

4. 数据质量校验

数据质量校验包括对当前发现的数据质量问题进行校验和处理,推动数据治理工作开展和持续优化。

5. 数据应用支撑

数据应用支撑包括为当前的数据应用开发提供支撑开发平台。

第四步:数据应用的详细设计与实现

不管是使用瀑布模型还是敏捷模型,数据应用的设计大体上都可以遵循传统信息化应用设计的过程和理念。数据应用中的数据开发一般在数据库或者数据仓库中完成。数据应用的内容展示可以采用BI分析工具展现,例如可视化大屏或者定制化开发应用。数据应用还可以通过API接口服务提供数据成果,让其他外部应用按需调用。数据应用的开发与传统信息化应用的开发有以下不同之处。

1. 数据应用关注数据源的内容和质量

我们在数据应用实施前应该充分了解企业当前的数据源情况,包括数据种类、每种数据的具体属性、数据内容的质量等问题。大部分落地失败的数据应用,都是由数据源的各种问题引起的,比如数据缺失或者数据质量问题。

2. 复杂的数据开发需要不断调优和迭代

随着机器学习、深度学习等算法的引入,数据模型的构建手段越来越丰富。但是在通常情况下,最终业务价值的产生是一个复杂的过程,不仅需要数据的支撑,还需要管理的配合。

3. 数据应用的结果数据的验证工作量占比高

论证数据结果的正确与否或者评估数据应用的效果,是一项费时、费力的工作。即使相对简单的指标计算,最后也经常会占用全部过程中1/3以上的时间进行正确性验证。甚至很多算法类项目,需要提前构建成果评估模型,并首先获得甲方企业的认可,然后才能开始进行数据开发。

4. 数据应用的运维难度大

因为数据中的各种异常情况往往是不可知或者意想不到的,所以数据运维需要有强大的人工保障,以保持任务的运转。

5. 数据应用的成果需要运营

数据应用的开发完成只是数据发挥价值的第一步,如何让业务部门理解模型、用好数据才是后续的关键。尤其是在刚刚引入新的数据,且尚未显现业务价值的时候,企业更需要对数据进行深入运营。

第五步:数据化组织规划

企业数据化应该是在未来一个时期内具有企业战略高度的事情,数据化需要一个具有同等战略高度的组织负责推进。无论是从传统的IT部门转型还是由战略部门或者类似部门介入都是很好的选择。组织是保障数据中台顺利落地的一个核心,也是推动企业数据化进程的人员抓手。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
本课程是一门具有很强实践性质的“项目实战”课程,即“企业中台系统实战”,其中主要包含三大块核心内容,如下图所示(右键可以在新标签页中打开图片放大查看): 即主要包含以下三大块内容: ① 企业内部应用系统菜单资源和操作权限的统一管理; ② 分布式应用系统通信时的统一授权,即基于AccessToken的授权与认证; ③ 分布式服务/系统通信时的两大方式(基于dubbo rpc协议和基于http协议的restful api实战)。   值得一提的是,这套中台系统由于讲解了如何统一管理企业内部各大应用系统的“菜单资源列表”、“操作权限”,故而本门课程的“代码实战”是建立在之前debug录制的“企业权限管理平台”这套课程的基础之上的,故而在这里debug建议没有项目开发基础的小伙伴可以先去学习我的那套“企业权限管理平台”的实战课程,之后再来学习我的这套中台系统的实战才不会很吃力(课程链接:)   本课程的课程大纲如下图所示(右键可以在新标签页中打开图片放大查看):   除此之外,这套“中台系统”由于统一管理了企业内部各大应用系统的“菜单资源和操作权限”以及“应用系统之间通信时的统一授权”,故而难免需要涉及到“中台系统”与“中台子系统”、“中台子系统”与“中台子系统”之间的通信(即分布式服务之间的通信),在这里我们是采用“dubbo + zookeeper”的方式加以落地实现的,详情如下图所示(右键可以在新标签页中打开图片放大查看):   而众所周知,作为一款知名以及相当流行的分布式服务调度中间件,dubbo现如今已经晋升为Apache顶级的开源项目,未来也仍将成为“分布式系统”开发实战的一大利器,如下图所示为dubbo底层核心系统架构图(右键可以在新标签页中打开图片放大查看): 而在这门“中台系统实战”的课程中,我们也将始终贯彻、落地dubbo的这一核心系统架构图,即如何将中台系统开发的服务注册/发布到注册中心zookeeper,中台子系统如何订阅/消费/调度中台系统发布在zookeeper的接口服务,中台子系统在走http协议调度通信时dubbo如何进行拦截、基于token认证接口的调用者等等,这些内容我们在课程中将一一得到代码层面的实战落地!   下图为本课程中涉及到的分布式系统/服务之间 采用“http协议restfulapi”方式通信时的Token授权、认证的流程图(右键可以在新标签页中打开图片放大查看): 而不夸张地说,基于AccessToken的授权、认证方式在现如今微服务、分布式时代系统与系统在通信期间最为常用的“授权方式”了,可想而知,掌握其中的流程思想是多么的重要!   以下为本门课程的部分截图(右键可以在新标签页中打开图片放大查看):     核心技术列表: 值得一提的是,由于本门课程是一门真正介绍“中台思想”以及将“中台思想”和“分布式系统开发实战”相结合落地的课程,故而在学完本门课程之后,可以掌握到的核心技术自然是相当多的。主要由SpringBoot2.0、SpringMVC、Mybatis、Dubbo、ZooKeeper、Redis、OkHttp3、Guava-Retrying重试机制、JWT(Json Web Token)、Shiro、分布式集群session共享、Lombok、StreamAPI、Dubbo-Filter以及ServiceBean等等。如下图所示(右键可以在新标签页中打开图片放大查看):
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值