Vast+产品展厅 | Vastbase SMP并行执行流程介绍

当一条查询语句在所涉及的表中的数据量达到阈值时,由规划器生成的计划去执行扫描时性能会比较差,因此需要使用多个worker线程并行各自去执行扫描表操作。这就是并行流式执行,简称SMP。

它是一种利用计算机多核CPU架构来实现多线程并行计算,以充分利用CPU资源来提高查询性能的技术。

本文将为您介绍Vasebase中SMP并行执行流程的实现原理,包括解决的问题、整体设计框架以及原理等。通过了解Vastbase SMP并行执行流程,数据库管理员和开发者可以更好的利用Vastbase,提高数据库算力。


常规SQL执行计划结构

下层算子向上层算子吐出数据,在单个线程中只能顺序执行。中间算子(例如HashJoin、NestedLoop等)一般拥有1-2个下层算子,部分算子(例如Append)拥有多个下层算子。叶节点算子一般是某种Scan算子(例如SeqScan、IndexScan)。

显而易见,当某个算子的时间开销过大时,会拉低整个计划的性能。

并行SQL执行计划结构

这是并行计划的一种形式示例,最下层Scan算子并行,每个并行算子在单独的线程中执行,共同完成数据扫描任务,向上层收集器(Gather)吐出数据,而收集器成为上层算子的子节点。

实际实现中,中间算子也可以并行,共同组成形式多样的并行计划。

并行生产者与消费者模型

并行线程通过内存队列与上层算子完成数据传输,由两个组件StreamConsumer

和StreamProducer协同完成处理,他们之间可以是多对一、一对多、多对多关系。

并行执行流程

  • SMP主线程:该线程是查询语句的调用入口(exec_simple_query),负责初始化、顶层执行、数据汇总等,在线程上下文的子角色为顶层消费者TOP_CONSUMER。
  • SMP子线程:根据并行参数和查询计划,会生成多个并行执行子线程,负责处理自己的那部分并行执行逻辑,并把数据发送给上层线程。在线程上下文的角色为STREAM_WORKER 或 THREADPOOL_STREAM。

在一个复杂的计划中,会存在多层SMP执行流嵌套的情况。以下图的情况为例,整个计划会被分为3层,query_dop并行度为2。第一层主线程作为顶层消费者获取和汇总数据,第二层有2个子线程,它们作为消费者向下层获取数据,执行后作为上层的生产者发送数据,第三层2个子线程只负责执行,并作为生产者向第二层发送数据。

主线程执行流程图

子线程执行流程图

通过以上的介绍可以看出,在Vastbase并行执行流程中,每个并行算子在单独的线程中执行,共同完成数据扫描任务,向上层收集器(Gather)吐出数据,共同组成形式多样的并行计划。通过这种并行数据处理,对于相同的执行计划,Vastbase可以表现出更好的执行性能。

更多海量数据黑科技,敬请锁定《Vast+产品展厅》。

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值