数据技术大融合,HSTAP数据库有多少想象空间?

目前,HTAP数据库成为数据库领域最热门的话题之一,Gartner分析师甚至指出,HTAP已经成为新一代数据库的入场筹码,HTAP为什么会火起来?如何实现HTAP能力?HTAP下一步是否会向着超融合HSTAP方向演进?整个数据技术栈是否会像十年前iPhone整合掉MP3、手机通信、相机等一样,被一个数据平台整合?本文通过采访相关专家对上述问题进行探讨。

天下大势分久必合合久必分,数据技术亦是如此。

千禧年后随着信息化和数字化发展,数据技术走向繁荣,百花齐放。近年来,随着数字化转型深入,数据价值愈发凸显,数据技术出现了融合趋势。比如,软硬一体,湖仓一体,HTAP数据库等等。

近两年,我们看到市场上除了火热的HTAP数据库,还出现了HSTAP数据库和HTSAP数据库的说法,多出来的S是什么?是新瓶装旧酒?还是数据技术融合下的新探索?

火热的HTAP乱花迷人眼

“在继分布式、NoSQL/NewSQL之后,国内数据库技术界的当红炸子鸡,非云原生、HTAP莫属。”去年DTCC2021中国数据库技术大会后,一位专家如此写道。

HTAP是TP与AP的融合,希望用一套系统,解决用户的TP和AP需求,这一数据库的融合趋势,不限于中国,在全球都是一样的来势汹汹。比如,2022年 5月,Google Cloud 发布了主打HTAP的云端数据库AlloyDB, 6月,Snowflake发布了行存储引擎Unistore,正式进军HTAP。此前,包括MySQL发布Heatwave,增强分析能力,也是加入了HTAP大战。

Gartner分析师甚至指出,HTAP已经成为新一代数据库的入场筹码,HTAP能力成为数据库必备选项。信通院在7月中旬也启动了首批“可信数据库”-HTAP数据库产品评测……

2014年Gartner对HTAP数据库给出了明确定义,即需要同时支持OLTP和OLAP场景,基于创新的计算存储框架,在同一份数据上保证事务的同时支持实时分析,省去费时的ETL过程。也就是说,支持混合负载的数据库能够避免传统架构中在线与离线数据库之间大量的数据交互,同时也能够针对最新的业务数据进行实时统计分析。

HTAP火热的背后是需求推动,越来越多的实时分析场景出现,比如,金融业中对实时性要求较高的风控、实时账单、实时促销等业务场景,以及新一代Web3.0、NFT、区块链等对实时数据敏感的领域。在原来的架构下只能支持T+1或者T+N分析,已经不能满足需求,而省去ETL的HTAP数据库可以实现T+0的实时分析。

通常来讲,实现HTAP可以分为两大类,第一大类是将现有的 TP 与 AP 包装,通过一些中间件的方式将其连接起来再做封装,以类似中台的方式封装实现。比如,TP用了MySQL,AP用某数据仓库或者数据湖,中间用Flink串起来,且对用户透明,包装成一个相对比较统一的管理界面。实现起来容易,但是组件多,成本高。第二大类,融合架构,抛弃现有的 TP 与 AP 独立架构,从底层存储开始就将 TP 与 AP 的引擎融合起来,形成一套系统。为了避免在线实时读写与批处理作业之间的资源干扰,HTAP混合负载型数据库通常使用读写分离或内存处理技术实现。一般来说,分布式数据库的多副本架构天然支持读写分离技术,而基于传统架构的数据库往往采用内存处理技术进行实现。不过,融合架构下的HTAP数据库也是乱花渐欲迷人眼。

矩阵起源CTO张颖峰认为,在数字化转型浪潮中,数据库将扮演比以往更为重要的角色,在数据技术融合的大趋势下,现在的HTAP还有不足,矩阵起源提出了超融合HSTAP数据库的定位,多出来的“S”又是什么?

融合的下一站是HSTAP?

“为什么要加S呢?是指用户使用TP和AP时的数据结构和能力要求不一定相同,一定要有东西在这两者之间做桥梁。”张颖峰介绍,在挖掘数据价值过程中,数据库是企业数据资产或者数据平台的组成基础,如在一个数据中台中,用户需要基于OLTP(通常来自业务中台)的表做ETL工作,Join成宽表保存到OLAP用来做交互式分析。为什么要有宽表呢?这有两方面的原因:其一是分析师建模方便,其二是增加许多维度字段,提升查询效率。在这种场景下,以Flink为核心的数据流处理,成为了串起上下游的核心引擎,而其中的典型操作,就是Stream Join,把多个表实时连接成一张表保存到目标数据库,进一步资产化。单纯的HTAP,通常只能用于实时分析,无法满足这种通用场景的要求。

矩阵起源所提的HSTAP中的“S”指的是串联AP和TP的Streaming能力,即在HTAP数据库内部实现了数据库内置流处理能力。通过一种创新的架构实践极简理念,把数据库的复杂度留给产品的研发阶段,而把简单、易用、好用的最终体验带给用户。

“我们定义的HSTAP是指,在这个平台里面,无论是TP还是AP负载,用户都可以随心所欲地去创建各种表,也可以随心所欲用一个流,用类似于流的语法,把各种表连起来。”张颖峰强调。比如用户希望对订单明细表进行分析,需要Stream Join成一张宽表。那么,随着有订单明细表的数据更新,宽表也将自动更新,但是不用维护该更新机制。即把用户的ETL工作内置到数据库当中,这样就让一个数据库同时具备AP、TP和S(流)的能力。

在矩阵起源团队看来,当下的数据栈,包括数据库、数据仓库、数据湖,这些本身就不应该如此割裂。之所以割裂,这里面有技术的因素,也有历史因素,同时具备TP、AP、流三者能力的HSTAP会帮助客户彻底打破数据孤岛问题,成为企业将来的智能化核心数据基础设施。“HTAP、流批一体、湖仓一体,这些新的技术趋势都可以包含在HSTAP的范畴内。”张颖峰指出。文章转自:http://www.qnhh.org/sitemap.xml
郑重声明:本文转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值