数据中台建设与应用_数据中台的建设(上)

数据中台的作用是引领业务,构建规范定义的、全域可连接萃取的、智慧的数据处理平台,建设目 标是高效满足前台数据分析和应用的需求。数据中台涵盖了数据资产、数据治理、数据模型、垂直数据中心、全域数据中心、萃取数据中心、数据服务等多个层次的体系化建设。

数据中台功能定位

业务系统的复杂性导致数据源形式的多样性,数据中台的数据处理能力既要满足传统的结构化数据 处理需求,又要满足日志、音频、视频等半结构化、非结构化的数据处理需求。因此,中台应具有丰富的大数据处理能力,如非结构化数据转换为结构化数据、流数据处理能力、海量数据存储能力等。

数据中台首先应该是一个“业务矿产”,可以汇聚来自不同业务系统,不同数据结构、数据格式的平台;其次,还需要把这些“业务矿产”进行统一化,即统一采集、建模、管理与安全,通过加工与提纯, 形成企业的数据资产;最后,加工提纯后的“业务矿产”需要对数据进行服务化,即业务数据化、数据业务化,通过数据业务消费数据,再产生新的矿产。

数据中台需要实现数据的分层与水平解耦,并具有沉淀公共数据的能力。数据中台可分为3层——数据模型、数据服务与数据开发,通过数据建模实现跨域数据整合和知识沉淀, 通过数据服务实现对数据的封装和开放,快速、灵活地满足上层应用的要求,通过数据开发工具满足个性化数据和应用的需要。 综合而言,数据中台应该具备以下几项能力。

  • 数据整合能力:企业在平台上从事各种商业、消费等活动时,每时每刻都在产生海量的数据,数据采集作为数据中台体系的第一环,尤为重要。因此,需要有一套标准的数据采集体系方案,致力于全面、高性能、规范地完成海量数据的采集,并将其传输到大数据平台。从数据 来源来看,需要支持日志采集、文件采集、业务数据库的增量、全量数据传输等。
  • 数据开发计算能力:数据只有被整合和计算,才能被用于洞察商业规律,挖掘潜在信息,从而实现大数据价值,达到赋能于商业和创造价值的目的。从采集层中获取到的大量原始数据,将进入数据计算与开发中被进一步整合与计算。对数据计算来说,需要提供离线计算与实时计 算的能力,提供支撑个性化推荐、智能配补货、销量预测、精准营销等数据应用的算法模型能力,此外,还需要进行数据整合及管理体系。
  • 数据服务能力:将数据模型按照应用要求进行服务封装,就构成了数据服务,它跟业务中台中的服务概念是完全相同的,只是数据封装比一般的功能封装要难一点,因为数据分析受市场因素的影响很大,变化更快,从而导致服务封装的难度变大。 随着企业大数据运营的深入,各类大数据应用层出不穷,对于数据服务的需求非常迫切,大数据如果不进行服务化,就无法规模化。

数据中台建设范围

企业要想建设一套完整的数据中台,具体要包含哪些内容呢?一套成熟的数据中台又应该包含哪几 部分内容呢?这两个问题困扰着很多IT部门的人员。

一般认为,要建设企业的数据中台需要6个方面的内容。当然,这6个子系统并不完全需要从零开始建设,有一些部件在市面上已经有开源的产品或者商业软件。这6个子系统包含大数据平台、智能运维平台、智能研发平台、自助分析平台、智能标签平台以及数据资产平台,前面5部分内容属于工具平台,都是为数据资产服务的。数据资产平台是数据中台的核心部件,它包含按照规范建设的数据分析模型、适用于各种数据赋能业务场景的数据算法模型以及企业通用的数据分析专题。

cf1ee42de37fd6baf61d1a31bbd7b518.png

数据中台

数据中台的6个子系统详解如下所示:

  • 搭建大数据平台:俗语云:“工欲善其事,必先利其器”,建设数据中台必须先选择一款足够强大的大数据计算平台,用于处理各种格式的数据,同时用来存储企业海量数据。这个平台就像一部高速运转 的机器,由各种零部件组成,如:数据采集组件、数据计算组件、数据存储组件。
  • 搭建智能运维平台:大数据计算平台,采用分布式架构,有服务各种场景的组件;同时,部署这些组件需要多台机器的集群,少则几台,多则上千台,必须要有一个配套的运维管理平台对服务组件与集群节点进行管理。
  • 搭建智能研发平台:搭建研发管理平台的目的是为了在进行数据资产建设过程中快速进行研发,并且降低研发难度,同时,可以更加有条理性地管理建设的数据资产,让数据资产能规范化地对外输出, 赋能业务。
  • 搭建智能标签平台:标签平台在数据中台体系中占据着举足轻重的位置,尤其是在新零售业务模式下精准营销、精准触达、个性化推荐这些应用场景都需要基于用户、商品的标签来实现。一个成熟的标签平台则可以帮助运营团队快速定义标签、可视化管理标签、快速搭建适合企 业的标签体系,以及通过标签平台对外提供标签服务。
  • 搭建自助分析平台:数据中台提供的最基本能力就是支撑企业的决策分析以及智慧运营,除了标准分析,运营部门还需要利用数据中台提供的数据资产进行探索分析。搭建一套灵活强大的自助分析平台非常有必要。自助分析平台的搭建可以选择自建也可以选择集成市面的一些商业套 件。
  • 建设企业数据资产:企业通过业务在线之后沉淀下来的数据并不能称为数据资产,只有将数据通过数据中台体系化建设,按照主题域进行规范存储、建设统一的数据模型,形成标准的专题为决策分析、 赋能业务提供能力才可称为数据资产。

搭建大数据平台

大数据平台是建设数据中台的基石,随着大数据技术的日新月异,特别是以Hadoop生态圈为代表的开源社区的活跃,在数仓时代数据处理、海量数据存储的痛点都一一得到解决。

搭建大数据平台主要是解决数据采集的组件选型、数据处理的计算引擎选型、 各种类型的数据存储组件选型,以及数据作业调度、权限、安全管理组件等问题,保障数据中台中的数据资产可以在平台中有序正常地运转。 同时,通过对数据中台建设的数据资产资源进行评估,估算出搭建大数据平台需要的计算、存储、 网络等资源。它需要从数据总体量、数据日增长量、数据存储周期等多方面综合估算。

当前在大数据平台建设过程中选择面很宽,不过仍以Hadoop生态圈的技术组件为主,比如数据存储可根据数据类型与用途不同,可选择HBase、Hive、Parquet等组件;数据计算引擎可根据需要选择MapReduce、Spark、Flink等分布式计算引擎;而数据作业调度组件则可选择Azkaban、Oozie、Airflow等各组件;数据权限、安全等也是搭建大数据平台必不可少的环节,开源社区同样提供了Ranger、Kerberos 等权限管控组件。当然,除了这些开源组件以外,最近几年出现了很多成熟的商业化大数据计算产品, 无论是在计算性能、运行稳定、技术支撑等方面都优于开源社区产品,比如阿里巴巴提供的 MaxCompute(原ODPS),可以轻松支持PB甚至EB级数据量计算及存储。

搭建运维管理平台

运维管理平台提供了界面化操作集群的能力。它帮助开发、运维人员简单快速地搭建和管理集群, 同时也对集群健康状态进行监控,并在异常出现时及时作出告警。

当前云平台服务商及一些第三方Hadoop发行版都提供了运维管理平台。如:阿里云的EMR、 Hortonworks的HDP、Cloudra的CDH。

(未完待续)

--摘自《中台战略》

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值