TDSQL | 深度解读HTAP系统的问题与主义之争

近日,第12届中国数据库技术大会(DTCC 2021)在北京国际会议中心召开。作为全球领先的云计算、数据库产品服务商,腾讯云数据库集结多位顶级技术大咖亮相本次大会,围绕当前比较热门的数据库技术主题,共同探讨最前沿的技术趋势与实践。

本期为大家带来腾讯专家工程师朱阅岸老师在本次大会上的分享,主题为“HTAP系统的问题与主义之争”。以下是分享实录:

问题与主义之争其实是上世纪初胡适与李大钊之间的一场论战。胡适主张改良,提倡解决一个个问题,也就是少谈些主义,多研究些问题;而李大钊则主张改革,认为只有解决了这个根本问题,其他的问题才能解决,二人代表着两个截然不同的路线。其实围绕着HTAP系统的演进也存在类似两条路线,一条路线是改良,一个路线是通过改革的方式打造全新的系统。今天我就为大家分享HTAP系统的技术实现相关路线。

1. HTAP的定义与挑战

我们先来解释HTAP的定义与挑战是什么。下图是经典的数据处理框架,我们在里面划分出两种数据库系统:一种是事务型的系统,这是数据源头产生的地方;另一种是分析型的系统,是我们的数仓。数据会定期从交易型数据库中借助ETL的方式流入到数仓. 然后在数据仓库做分析处理,产生相应的报表和报告。企业的经营决策者能够通过分析报告和决策报表去观察企业的经营行为,从而观察到未来的发展趋势。这是数据宝贵之处的体现之一。不少公司都在数据基础设施上投入人力物力,期待在数据变现上获得更好的回报。

研究表明,这些样本公司在每13美金的投入中就有1美金投入到数据分析里,有74%的公司想成为一个数据驱动型的公司,如果一个公司采用更为先进的数据分析手段,那它超越竞争对手的可能性将达到两倍。

数据分析具备巨大的商业价值。但在目前的数据处理框架中,OLTP和OLAP两类系统是割裂开的,主要是通过ETL把数据从交易型数据库导入到分析型数据库,而ETL的时延比较大,可以达到数十分钟到几小时,甚至是几天。上图右下角的图片显示,数据的商业价值会随着时间的流逝而下降。数据产生再经过ETL导入到数仓,在数仓里进行分析,然后做决策,执行相应的动作。在这时,数据的商业价值就会大打折扣。

因此最理想的情况是在数据产生后就能迅速对其进行分析。为了解决这个问题, HTAP系统应运而生,它的初衷就是要打破事务处理和分析处理的界限,使企业能够通过HTAP系统更好地发现市场反馈,获得更好的创新。这么先进的数据处理技术,为什么近年来才引起人们的关注呢?我个人认为,这主要得益于现代列存储技术的发展,HTAP系统的出现才成为了可能。

以前客户用SQL Server做查询分析处理,需要十多个小时以上。在这种技术能力下是无法达到实现HTAP系统要求的。后来SQL Server采用列存储技术,耗时十几个小时的分析可以降到几分钟,甚至可以在秒级时间内把结果运行出来。列存储技术及背后的向量查询引擎的发展,使得HTAP登上了历史舞台。

HTAP能让数据产生后马上就可以进入分析场景。但它面临最大的问题是如何把OLTP和OLAP两类工作负载更好放在一个系统上运行,毕竟这两类工作负载本质上是互斥的。交易型的事务是短事务,以写为主;分析型的事务是长事务,以读为主,经常需要做全表扫描,在扫描的基础上做统计、聚合等操作。这种情况下,OLAP的事务经常需要独占系统资源,使交易型的事务吞吐量下降。有研究表明,把OLTP和OLAP放在一个系统里调度,OLTP的吞吐量可能会下降到原本的1/3到1/5。所以如何让OLTP和OLAP在系统运行的过程中相互干扰最小,就成为HTAP系统设计的难题。

从过去十多年的发展来看,主要有两种实现HTAP的方案:第一种是改良的方式,在现有业务系统上延伸扩展,打造一个

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值