GaussDB(DWS)云原生数仓技术解析:湖仓一体,体验与大数据互联互通_gaussdbdws 数据中台(2)

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

为了规避掉上述问题,我们采用数据共享(含湖仓一体)能力,其具备的优势有以下几点:

  • 一份数据支持不同业务访问,数据零 copy。快速、敏捷支持新业务上线。
  • 业务之间具备良好的隔离能力,性能稳定。

不同的场景对需求的优先级是不一样的,我们数仓要考虑在面对这两类不同的场景的时候,怎么用一套数仓的价格去解决这个问题,这是在需求场景上我们看到的一些变化。

五、数据仓库技术架构演进

5.1、Shared Storage 架构

早期的数仓,就挂了一个共享存储,我们称其为 Shared Storage。

在这里插入图片描述
特点:共享存储和状态,计算节点像访问单机一样访问最新的全局数据
优点:无需数据分片,无需分布式 plan 执行,对业务透明。
缺点

  • 计算节点需要引入协调机制(cache 同步),保证数据的一致性,扩展性有上限。
  • 单个 SQL 无法利用所有计算节点的扩展能力

5.2、Shared Nothing 架构

后面又出了这种 Shared Nothing 架构,像 GaussDB 十几年前刚开始做的时候,也是这么一个架构。

在这里插入图片描述
特点:一种分布式计算架构,CPU、内存、磁盘等资源都是私有的,整个系统中不存在共享资源,每个节点只处理自己分片的数据,没有单点的竞争。
优点:扩展性好。
缺点

  • 计算存储耦合,需要同时扩容,不够灵活。
  • 扩容需要较长的数据重分布时间。

5.3、存算分离架构

在这里插入图片描述
特点:存储类似 Shared Storage,计算类似 Shared Nothing,每个节点只处理自己分片的数据。
优点

  • 计算存储分层扩展,计算节点扩容无需数据重分布,速度快,灵活;存储节点按需扩容,无限容量。
  • 计算节点之间无需协调机制,只需保证计算节点只处理自己分片的数据。

六、GaussDB(DWS)演进历程

我们先回顾一下 DWS 演进历程,具体如下图所示:

在这里插入图片描述
GaussDB(DWS)在十年前就开始在做了,当时是针对于线下的这种场景,采用的就是 Shared Nothing 架构,在14年之前主要是做数仓里面比较通用的技术,包括分布式的执行、现代化引擎、列存储机制,后面开始在大行里面做连创,就遇到了更多的产品化的需求,包括这种大集群的通信、负载管理以及怎么跟用户这种大数据的生态做互通等等,再到后面随着市场的推广越来越多,就有更多产品化诉求和企业级特性诉求。在 2020 年的时候开始做 DWS,内部叫 3.0 版本,主要就是一个云原生数仓,也是我们本文将要给大家分享的内容。

七、DWS 云原生架构技术解析

7.1、极致弹性、数据共享、高灵活度、高性价比

在这里插入图片描述
三层解耦

  • 管理层,计算层,存储层独立灵活伸缩。
  • 计算资源以逻辑集群方式组织。

灵活弹性

  • 分钟级单逻辑集群扩缩容。
  • 分钟级快速创建销毁逻辑集群。
  • 快速扩缩容,无数据重分布、拷贝。

一数多用

  • 任意逻辑集群均可承载读写负载。
  • 多逻辑集群间共享数据,无需拷贝。
  • 提供跨逻辑集群建的同时和近实时两种数据共享方式。

按需配置

  • 逻辑集群隔离不同业务。
  • 业务承载量/并发量的线性扩展。
  • 读写分离、不同负载隔离。

7.2、按需弹性实践适应灵活多变的业务需求

在这里插入图片描述
我们把弹性需求可以分成两大类:一类就是较长周期,随着公司业务的增长逐渐增加的;另外一种是短周期的,可能每天都在变,或者是每天的同时间点的业务负载都不一样,像对于这种比较稍微长周期或者稳态一点的业务,可以用这种在单位 vw 内增加计算资源的方式去来承载。

7.3、湖仓一体,与大数据互联互通

在湖仓一体上进一步增强体验,使用大数据的生态更加简单、维护代价更低,体验横向融合分析。

传统的维护,当外表的数量是一张、两张的时候还比较好维护,当外表有有成千上万张的时候就比较麻烦,你首先要把这些外表都创建出来,其次如果大数据这边把表的结构改了,不管是改了字段的类型或者是新加了字段,外表都需要做同步的维护,维护的代价就会高,而新的湖仓一体就完美解决掉了这个问题。

在这里插入图片描述
无缝访问数据湖

  • 对接 Hive Metastore 元数据管理,直接访问数据湖的数据表定义。
  • 支持主要数据格式:ORC、Parquet、Hudi、Carbon。

融合查询

  • 混合查询数据湖和仓内的任意数据。
  • 查询一步到位输出到仓内/数据湖,无需额外数据中转拷贝。

极致查询性能

  • 使用数仓高质量的查询计划和高效的执行引擎。
  • 使用数仓的负载管理手段,精准控制。

7.4、数据生产线与 AI 生产线的高效配合

AI 有自己的一套系统,即 ModelArts,数据是 DWS,AI 如何访问到 DWS 的数据,DWS 又该如何利用 ModelArts 的模型?主要就是解决这两个问题。数据共享我们可以把数据都放到 obs上去,用开放的格式,这样数据共享的问题就比较好解决;在 AI 模型这方面,我们通过在 DWS 里面写 SQL的形式去使用 ModelArts 的 AI 能力。

在这里插入图片描述
数据生产线→AI 生产线:无缝数据通路

  • 面向批量生产:通过 OBS 共享开放格式数据。
  • 面向快速开发:通过 ConnectorX 等以查询取数的方式嵌入 Python 开发生态,重点是 Pandas。

AI 生产线→数据生产线: AI for Data

  • 提供 SQL 语法,在数据分析过程中提供驱动 AI 训练、应用 AI 推理的能力。
  • 将推理能力引入分析:直接调用部署的推理服务端点,灵活性好;将模型二进制部署为 UDF,性能好。

7.5、灵活可配的性能优化选择

在这里插入图片描述
在性能方面,存算分离之后关心的就是计算存储,保证性能主要的手段有冷热分区高效缓存、近数据计算和大带宽云存储三个方面,我们来看下图这个效果是非常显著的。

在这里插入图片描述

7.6、提供按需权衡、灵活可配的缓存

系统会把 obs 上的数据缓存到本地,解决很多性能的问题,缓存现在支持大小可配,想获得更好的性能可以多买一点本地缓存,如果对这个性能没有太高诉求,可以少买,成本完全由自己决定。

在这里插入图片描述
无缝配合缓存

  • 热数据优先缓存,使用本地的算子下推能力。
  • 冷数据优先下推,使用云存储的近数据计算资源池。

近数据计算

  • 将数据下推到云存储,显著降低数据读取量。

7.7、深度优化存算分离架构

计算和存储分离之后,这种时延天然存在,物理上是不可避免的,在这种时延下,如果不做任何优化,性能肯定会下降,所以在这里做了一个通过并发来换取带宽的手段,虽然单线程作 IO,延迟变高,但是可以开更高的并发的,来把 obs 带宽打满。

在这里插入图片描述

  • 更低时延:充分利用云存储的带宽优势,弥补其相较传统 MPP 的高延迟劣势。
  • 更优资源调度:单查询充分利用资源,为并发查询提供稳定、可预测的性能保证。
  • 更灵活配置:多级资源池灵活配置。

文章作者白鹿第一帅作者主页https://blog.csdn.net/qq_22695001,未经授权,严禁转载,侵权必究!


总结

传统数据仓库常常需要企业投入大量人力、物力和财力进行维护和升级等工作,这不仅耗时耗力,而且容易带来安全和风险问题。GaussDB (DWS) 云原生数仓利用云计算、自动化和管理工具等技术,可以降低企业的成本和风险,同时提升数据仓库的质量和效率。数字化转型是企业发展的必由之路,而数据仓库是数字化转型的重要基础设施。GaussDB (DWS) 云原生数仓的发展将为企业提供更全面、更优质、更高效的数据处理和分析能力,有助于企业更快速地实现数字化转型,更好地应对市场变化和竞争挑战。
在这里插入图片描述


我是白鹿,一个不懈奋斗的程序猿。望本文能对你有所裨益,欢迎大家的一键三连!若有其他问题、建议或者补充可以留言在文章下方,感谢大家的支持!

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

14963470975)]
[外链图片转存中…(img-Yj3cALMs-1714963470975)]

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

  • 26
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值