SuperSQL:跨数据源、跨DC、跨执行引擎的高性能大数据SQL中间件

SuperSQL是一款高性能大数据SQL中间件,支持跨数据源、跨数据中心、跨执行引擎,旨在解决业务数据孤岛,提升数据使用效率。它基于Apache Calcite构建,提供跨数据源查询、SQL算子下推等功能,支持多种数据源和SQL语法。在1GB和100GB TPC-DS测试中,SuperSQL相比于SparkSQL在响应时间上有显著提升,尤其是在100GB数据规模时,性能提升高达26倍。未来计划包括兼容存量业务、优化统计信息采集和智能选择执行引擎。
摘要由CSDN通过智能技术生成

640?wx_fmt=gif

导语: SuperSQL是腾讯数据平台部自研的跨数据源、跨数据中心、跨执行引擎的统一大数据SQL分析平台/中间件,支持对接适配多类外部开源SQL执行引擎,如Spark、Hive等。

背景

SuperSQL是一款自研的跨数据源、跨数据中心、跨执行引擎的高性能大数据SQL中间件,满足对位于不同数据中心的不同类型数据源的数据联合分析/即时查询的需求。SuperSQL的目标是成为公司内部统一的SQL分析中间件,实现以下三点的价值:

  • 解决业务数据孤岛,最大化数据的使用价值
  • 执行引擎最优选择,提升业务使用数据效率
  • 优化集群资源使用,解决业务资源使用瓶颈

SuperSQL基于Apache社区Calcite[1]动态数据管理框架构建,并围绕上述目标对Calcite Parser/Planner/MetaStore等组件做了大量的定制、扩展和优化。SuperSql的主要特性包括:

  • 跨数据源查询:支持通过JDBC对接MySQL、PostgreSQL、TBase、Hive (ThriftServer)、SparkSQL、H2、Oracle、Phoenix (HBase)、ElasticSearch等数据源,且支持对接同一类数据源的不同版本(如Hive 2.3.3与Hive 3.1.1);
  • SQL算子下推:支持常用SQL操作下推数据源执行,具体包括Project、Filter、Aggregate、Join、Sort、Union、Intersect、Except、Limit、Offset、UDF和Nested Query;
  • SQL引擎CBO(基于代价优化):基于Volcano模型,选择最优的查询执行物理计划;
  • 跨数据中心CBO:将集群负载、网络带宽等因子纳入代价估算,选择最优的跨数据中心执行计划,拆分子查询到不同DC的多个计算引擎执行;
  • 最优计算引擎选择:支持对接多种不同类型的分布式计算引擎 (如Spark, Hive, Flink, Presto),支持为每个SQL智能挑选最优的执行引擎;
  • 标准SQL语法:支持SQL 2003、Oracle12和MySQL5语法。

SuperSQL的主要应用场景包括:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值