【数据中台】数据中台的建设方法与开发实践

今天和大家分享下数据中台和数据开发相关的内容,目录如下,且听我一一道来。

01 前言

02 中台概念及背景

03 数据中台建设方法

04 数据开发实践

01前言

2015年阿里在国内首次提出了中台概念,由阿里引领发展,迅速在互联网企业中形成了一股浪潮。在数字化转型的道路上,为了充分发挥数据价值,数据中台的理念也渐渐深入到各行各业中。数据中台,不是一套系统,同样也不是一个平台。它是一种企业的建设机制,植根企业特色,借助有形的产品和实施方法论,持续不断的整合数据、分析数据、挖掘数据价值。中台的构建不是一蹴而就的事情,今天我们就来简单聊一聊在数据中台中如何做数据开发。

02中台概念及背景

依然是老套的三段论,是什么,为什么,怎么办。首先我们先明确数据中台是什么?

先说说“中台“,中台这个概念最早是阿里提出的。在2015年,时任阿里巴巴集团CEO的张勇,提出了构建符合DT时代的更创新灵活地”大中台,小前台“组织机制和 业务机制的战略方针。中台这个概念是阿里在访问芬兰的一家名叫Suppercell的游戏公司。对于一款游戏而言,除了内部的游戏场景机制外,还有其后台支撑系统,例如游戏引擎、用户系统、支付系统、交易系统等。Suppercell统一了各款游戏的后台支撑系统,这样各个游戏开发团队只需要关注自身的业务属性,基于统一的平台支撑,快速开发,实现利益的快速变现。

图片

中台概念的出现既有其内部需求驱动,又有外部环境条件催化。从阿里的角度来看:

图片

历经多年的信息化建设,旗下有1688、淘宝、天猫、一淘等等产品条线,这些产品由于建设时期、分管团队、技术栈等等原因各自为政,形成了经典的烟囱式系统。重复的功能建设,带来了高昂且日渐增大的开发和维护成本;系统间集成交互复杂,面对新需求,尤其是需要跨部门协作开发的场景,在需求沟通、确认、开发、验证、上线等诸多环节都费时费力。这种各自为政的发展方式,同样不利于业务沉淀,阻碍了企业的持续发展壮大。

从外部来看,国家的一系列政策也起到了一定的促进推动作用。

图片

当企业发展到一定体量时,企业日常生产运营涉及到的数据量越来越庞大。随着数字化时代的到来,如何分析数据、挖掘数据价值,推动产业持续升级,变得越来越重要

图片

在这样的背景下,长痛不如短痛,阿里下定决心,重新梳理企业各条线业务结构,自上而下构建企业大中台。

  • 抽取业务系统中的公共流程服务部分,合并相似的组织,提供通用的服务能力,打通业务流程构建业务中台;

  • 抽取各个业务系统数据,对数据进行抽象、标准化、分析,进而提供统一、标准的数据服务。打通各业务线之间的数据和流程,实现数据共享和业务协同,构建数据中台。

数据中台的概念迅速自互联网企业阿里,腾讯,百度等头部企业兴起,并逐步扩散到传统企业,作为企业级的数据共享,能力复用平台帮助传统企业进行数字化转型。

03数据中台建设方法

阿里的数据、业务双中台建设之路,给我们以启发。在讲究持续发展数字经济的当下,企业要想做好数字化转型,必须玩转数据,真正实现D2V,发掘数据价值。借助中台实现业务能力复用以及不同业务条线的联动合作,为企业的持续发展奠定基础,降本增效。数据中台建设要掌握正确的方式方法。

做事情都要有明确的目标,才能辅助我们做出正确的决策。我们希望数据中台能够打破数据孤岛,提供统一的数据口径,按照标准的数据规范、借助数据开发过程梳理数据资产,明确数据价值,并借助数据资产管理快速响应前台业务需求,实现需求的快速开发,减轻开发工作量。最后利用数据中台作为统一的数据运营平台,对数据的安全、质量、以及运营成本进行持续跟踪。

图片

数据中台建设五步走:

1.  理: 梳理业务构成和流程,探查数据分布和特征,采集数据模型

盘点企业现有数据资源,根据数据需求确定数据体量,确定未来建设的规模,并根据规模确定相关的实施工具以及资源。

2.  规: 规划数据资产管理组织,建设多级管理规程体系

由上至下,建立数据资产管理组织,统一企业战略意识,达成统一目标。因为中台建设,在整合资源的同时需要各部门的倾力合作,需要有足够话语权的领导确认并推动中台建设方针。制定合理的机制保障,建设过程的顺利进行。

3.  优: 统一数据标准,优化数据质量

什么样的数据是真实有效的,保障数据的有效性是分析数据的另一个前提。建立统一的数据标准,保障数据的完整性、准确性、一致性,提高数据质量。

4.  用:集约化数据开发管理,建立数据资产门户,驱动数据共享

资产门户的建设涉及数据汇聚、数据开发、数据质量等多个环节,通过数据资产门户,积淀企业资产数据,资产数据作为参考,为数据服务开发,实现数据变现提供基础。

5.  评: 评估数据价值,企业发展方向的风向标

建立持续的数据运营能力,挖掘数据现存、潜在的价值,为企业的提供发展的风向标。

图片

04数据开发实践

鉴于篇幅以及结合开发经验,这里针对数据开发的一些实践经验,同大家共同探讨。数据开发我认为是数据中台建设中过程中占比很大的一项工作,在数据汇聚、数据质量、数据服务化等过程中都有它的影子。

数据开发平台各模块的组成结构如下图所示:

图片

数据开发平台的初衷是屏蔽底层复杂实现,降低开发工作量、提升开发效率,为企业提供快速、便捷、稳定、易用的数据中台建设能力,降低企业实施成本。

图片

基于项目空间,使数据团队不同角色更好的协作,打破团队间孤岛。通过项目配置实现人员、角色、资源(数据源、文件等)的统一管理。

基于项目空间,完成数据作业的开发、运行监控管理。

  • 完整的数据源支持

数据汇聚是数据中台建设的第一步。能否适配多源数据源是数据集成、同步的关键。数据开发平台支持20+主流数据源(持续扩展支持中),涵盖关系型数据库(JDBC的方式支持各种数据库)、文件存储(FTP、OSS等)、NoSQL(Elasticsearch、Mongo等)、消息中间件(KafKa、PMQ等),可对接各类大数据平台,开源含括 Hadoop,商业体系包括阿里MaxCompute、ADS(AnalyticDB)、CDH、HDP、星环。

基于自定义Classloader,打破双亲委派原则,提供同一套引擎下多数据源版本的支持,简化部署流程、降低部署成本。

在连接方式上支持多种协议认证,直连、Kerberos认证。

提供逻辑数据源多环境管理,降低一般开发人员对于数据的接触面,保障数据安全,防止数据泄密。

  • 提供多种通用数据处理组件,可视化便捷开发

基于数据集成数据同步开发的多年经验,普元积淀了很多通用的数据处理组件。通过在线编排的方式能够减少80%的数据开发工作量。比如字段映射、数据过滤、数据合并、数据脱敏、以及数据检验等等。

针对数据开发我们提供三种模式:

a)  在线编排自定义开发。借助50+输入、输出、转换组件,通过拖拉拽的方式对ETL过程进行组合编排开发。

b)  通用模版向导式开发。借助通用模版通过向导式配置,例如:多表同步、整库同步等。

c)  离线程序。离线程序作为能力补充,当在线开发不满足复杂业务需求情况下可以使用离线开发程序

图片

曾有人笑言数据开发就是写SQL,其实这句话也是有一定道理的,当然这里的SQL是一个广义的SQL了,它能够帮助我们进行取数(获取测试数据,辅助分析数据逻辑)以及对数(获取过程、结果数据,验证数据计算结果)。我们提供在线客户端辅助开发,免去在各种工具之间切换的繁琐。

图片

当然作为一款在线的开发工具,在线调试运行是必不可少的。

图片

  • 数据作业运行监控

数据作业开发完成后,通过作业流进行包装并提交正式版本到调度引擎中,就可以通过调度管理模块进行运行监控。

图片

同时针对已经运行的作业流实例支持多种操作:

暂停:(离线作业支持)等待当前运行的算子计算完毕后,暂停当前流程。

恢复运行:从暂停、停止的节点继续运行。

重跑:以相同的参数进行重跑当前作业流实例。

恢复失败:从失败的节点恢复,继续运行。

停止:停止当前作业流实例。

暂停:(离线作业支持)等待当前运行的算子计算完毕后,暂停当前流程。

  • 版本管理

支持保存开发期近10个任务草稿,以及正式版本切换。在遇到紧急情况下可以回滚至任意版本。

好啦,以上就是今天文章的全部内容。感谢大家的耐心阅读!您的关注、点赞、收藏是我创作的动力。

万水千山总是情,点个 👍 行不行。

  • 24
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
《阿里里巴巴企业数据安全中的数据脱敏实践》是一篇介绍阿里巴巴企业数据安全实践的文章。在这篇文章中,作者从数据安全的角度出发,提出了数据脱敏的重要性,并介绍了阿里巴巴企业中的数据脱敏实践方法和经验。这篇文章对于理解企业数据安全的重要性,以及数据脱敏实践的具体方法和步骤有很大的参考价值。 据文章介绍,阿里巴巴企业中数据脱敏主要通过将脱敏技术引入数据库中进行实现。在脱敏技术方面,很多企业可能采用传统的随机替换或屏蔽方式进行数据脱敏。但是这种方法存在通过反推来获取原始数据的隐患。阿里巴巴则采用了较为先进的脱敏技术,包括哈希加盐、加密算法、掩码算法等方法,确保用户数据完全脱敏。 文章还提到了脱敏实践的具体流程和步骤,主要包括需求分析、方案设计、代码开发、测试与验证等阶段。其中在方案设计环节,需要充分考虑企业的实际需求,如脱敏的数据字段、脱敏的方式、脱敏后数据的可用性等因素。代码开发和测试验证环节也需要特别注意,保证脱敏后的数据仍符合业务需求,并且稳定实用。 总的来说,这篇文章通过阐述阿里巴巴企业数据脱敏的实践案例和经验,深入浅出地介绍了企业如何在数据安全方面进行实践,保护用户数据的方法和步骤,对于企业信息化建设的决策者和IT技术人员都具有一定的借鉴和参考意义。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值