技术专家太玄:企业数字化转型中数据底座“湖仓一体化”l 华坤道威专访

随着大数据领域的迅速发展和普惠化,数据建设越来越受到企业的高度关注,而“湖仓一体化”也成为数据建设中重要的组成部分,越来越多企业把“湖仓一体化”视为数字变革的重要契机

那么对于企业来说,如何打造高效、安全的数据底座支撑其实现可持续化数字转型?针对这一问题,华坤道威特邀技术专家太玄为大家答疑解惑,整场直播太玄主要围绕当下风头正盛的技术热点湖仓一体化,数仓与湖仓、实际应用以及大数据生态常见的技术等方面进行分享,以下是直播重点内容分享。

你能了解到

  • 背景:湖仓一体为何在构建数据中台架构中起决定性作用?
  • 概念:什么是数仓、湖仓、湖仓一体化?
  • 关键痛点:华坤道威数据中台—数聚核Data N 它是如何以数据工作的痛点为切入点,进行数据中台的架构设计与建设?
  • 自研Fuzer:为什么华坤道威要选择自研调度系统——Fuzer?
  • 应用领域:目前,客户开始明确分层,他们带来给平台架构取舍不同,主要集中在哪些场景和需求?
  • 未来展望:华坤道威湖仓一体平台未来规划及发展方向?

Q1:湖仓一体为何在构建数据中台架构中起决定性作用?

数据中台是一套可持续“让企业的数据用起来”的机制,通过有形的产品和实施方法论,构建一套持续不断把数据变成资产并服务于业务的机制,数据来自于业务,并反哺业务,不断循环迭代,实现数据数据可见、可用、可运营,通过数据中台把数据变成一种服务能力,其目标是提供普惠共识的数据服务。

数据中台建设大火两大原因:

一数据中台确实给小前台提供了强有力的数据支持,实现了对需求的快速响应。

二是数据中台已经在阿里体现了巨大的商业价值和应用价值。

目前来说,企业面对海量数据分析的需求愈发突出,数据难以统一,同时还需要为数据湖、数据仓库两套存储系统分别对接不同的计算引擎,这样会导致数据研发成本大和数据残余和不一致的情况出现,采用湖仓一体构建数据中台架构,就可以有效规避这些问题,湖仓一体架构打通了数仓和数据湖,并融合了两种架构的优势形成数据共享,实现了联机数据融合和联机分析的同时支持。

在华坤道威数据中台中,湖仓一体能够充分融合数据治理的能力,把建设数仓,湖仓的单向架构能力,提升到架构融合,充分发挥其数据最终融合目标,为数据分析,联机算法等等计算场景,为企业数字化能力赋于新生服务力量,切实提升企业人效,数据建设及使用效率。

截至目前,华坤道威已服务政务、金融、工业制造等多个行业,成功为数百家企业构建数字化底座建设,全面支撑企业未来大规模业务智能落地,推进全线业务智能化,实现数据驱动下的企业数据赋能。

Q2:什么是数仓、湖仓、湖仓一体化?

数仓概念

数仓从字面理解上就是数据仓库的缩写,其实对于数仓可以理解为原来各个数据孤岛中的数据可能存储位置、存储格式、数据源形式等各个方面不同,而数仓要做的就是把数据按照所需格式提取出来,进行转换、过滤、清洗。最终装载到数据仓库,整个过程也叫ETL(Extraction Transformation Load),也就是从不同数据库“提取”指定数据,进行“转换”为指定格式,最终将满足指定格式的数据“加载”进数据仓库。

在数仓建设中有个重要数据分层建设概念,通常中台设计中主要分为数据引入层、数据公共层和数据应用层

湖仓概念

数据湖最简明概念就是以集中方式存储各种类型数据,能够覆盖广泛的数据源,支持多种计算与处理分析引擎直接对数据进行访问的统一存储平台。能够扩展数据分析、机器学习,数据访问等功能,但相较于数仓数据存储的格式,数据湖结构上广泛性更强,同样计算引擎的也更多样化。数据湖对存取的数据没有格式类型的限制,数据产生后,可以按照数据的原始内容和属性,直接存储到数据湖, 无需在数据上传之前对数据进行任何的结构化处理。

数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如 CSV、JSON日志等),非结构化数据(如电子邮件、文档、PDF 等)以及二进制数据(如音频、视频等)

特点:

数据仓库: 适合结构化数据,但不适合非结构化数据。

数据湖: 支持多种格式存储数据库,从数据结构上通常分类为结构化,半结构化,非结构化。

湖仓一体概念

数据中台建设架构不断发展,从2020年DataBricks公司提出“湖仓一体”建设架构,在数据建设加上又新增一种新型的数据存储应用开放式架构,打通了数据仓库和数据湖,将数据仓库的高性能及管理能力与数据湖的灵活性融合了起来,并且湖仓一体在扩展性、事务性以及灵活度上都体现出了相较于数仓,湖仓更独有的优势,所谓湖仓一体,就是要融合数据仓库的成长性与数据湖的灵活性,将二者有效结合起来,做到取长补短。

华坤道威湖仓一体平台,在注重数据价值的同时,有意识的把数据保存下来,做到在业务层面上,把数仓和湖仓真正的融合在一起

相比于传统的湖仓一体建设,华坤道威湖仓一体可以完成统一数据的集成,支持分析加载结构化,半结构化及非结构化数据;打通元数据,使得数据和元数据可治理;还具备事务支持,高性能查询和检索能力、支持各种工作负载、引入纯算分离的优势。

Q3:华坤道威数据中台—数聚核Data N 它是如何以数据工作的痛点为切入点,进行数据中台的架构设计与建设?

华坤道威数据中台—数聚核Data N遵循现有业务形态,发展建设属于自己的数据中台,通俗点说,数据中台建设的技术架构选型多种多样,在计算引擎上有离线,实时,在离线也具备多样选择,所以我们更应考虑自身业务数据流转,数据服务能力所展示真实形态,择选适合中台的技术。

Q4:为什么华坤道威要选择自研调度系统——Fuzer?

对于这个问题,我们具备一定经验之谈,在数据中台产品探索迭代过程中,我们在技术选型上从会用到逐步用好,到自行改良升级,从中攻克了一些的技术难题。华坤道威数据中台技术团队创新自研的Fuzer调度平台,结合产品需求,迭代遗留问题等充分贴合实际从0-1完成了第一个版本的上线为中台调度赋能,并且高度融合我们内部使用的离线,实时丰富的计算组件,数据源组件,多租户设计思想。

华坤道威自研的Fuzer调度系统支持百万级任务的复杂调度,系统自动解析任务依赖,并生成任务流依赖关系,无需人工构建任务流,支持即时和定时的动态实例管理以及灵活调度编排(任务、任务流、组合依赖),多维任务保活机制。

Fuzer调度系统平台是一个去中心化分布式易扩展的任务调度平台,支持调度中心高可用,可以确保稳定性,在系统管理和资源管理上,帮助企业进行用户管理和执行节点多租户,工作流结构图可以清晰显示任务状态、任务类型、工作流状态。重试次数等关键信息。

除此之外,华坤道威自研的Fuzer调度系统还具备最小中间件的特性、循环执行、支持不同级别多种设置方式的工作流参数,使得工作之间相互依赖,在策略上,支持任务失败暂停、跳过、重试以及超时处理等优势。

Q5:目前,客户开始明确分层,他们带来给平台架构取舍不同,主要集中在哪些场景和需求?

这问题上主要分为两点来说,首先上一代数仓体系带来的数据赋能能力给予了企业在数据能力上突飞猛进的动力,为企业业务增长带来其不可低估数据红利,同时面对日益复杂的业务场景,以及时代发展的需求,从企业数据能力到企业数字化转型,这不仅仅是技术架构的演进,也是企业能力更深层的数字升级

早期电商企业的数据能力为企业电商行业赋能,后期电商诸多数据多样化沉淀,因而对于数据再次利用,显现得尤其重要。目前华坤道威数据中台技术团队对清洗结构化数据有多痴迷,也会对非结构化数据多么的重视,其通俗所诉,智能客服的所承接的客户语音视频诉求,将会在非结构化数据分析后响应,这其中显而易见的需求就是对多样化数据不断分析利用,为业务场景数据赋予更多价值。

Q6:华坤道威湖仓一体平台未来规划及发展方向?

数据建设过程是循序渐进,从企业多样化业务系统的数据孤岛,再到数据规范建设属于自己的数据仓库,再到全面的数据资产丰富全面管理迈进数据湖,又到现在业内不断推行发展的“湖仓一体”,不难看出很多时候出于数据中台建设能力的限制,导致很多事情没法做。然而,通过数仓、湖仓以及湖仓一体架构,企业可以充分发挥组织内部的全面数据价值。我们也有理由相信,伴随着企业的数字化转型,新一代数据建设湖仓一体架构也会有更大,更成熟的发展空间。

未来,华坤道威还将在数据中台建设过程中,持续对数据建设、计算引擎与最终数据分析计算任务插件不断创新融合,不断优化升级湖仓一体数字底座,释放企业数据价值、打造新的核心竞争力,在整个数据量级目标上,不断向亿级,百亿级突破,让华坤道威数据中台成为更有特点,更好用的产品,全面助力各行各业数字化转型,驱动业务创新变革。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值