SuperSQL：跨数据源、跨DC、跨执行引擎的高性能大数据SQL中间件

最新推荐文章于 2023-03-30 23:41:06 发布

腾讯技术工程

最新推荐文章于 2023-03-30 23:41:06 发布

阅读量1.6k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Tencent_TEG/article/details/101441639

版权

SuperSQL是一款高性能大数据SQL中间件，支持跨数据源、跨数据中心、跨执行引擎，旨在解决业务数据孤岛，提升数据使用效率。它基于Apache Calcite构建，提供跨数据源查询、SQL算子下推等功能，支持多种数据源和SQL语法。在1GB和100GB TPC-DS测试中，SuperSQL相比于SparkSQL在响应时间上有显著提升，尤其是在100GB数据规模时，性能提升高达26倍。未来计划包括兼容存量业务、优化统计信息采集和智能选择执行引擎。

摘要由CSDN通过智能技术生成

640?wx_fmt=gif

导语： SuperSQL是腾讯数据平台部自研的跨数据源、跨数据中心、跨执行引擎的统一大数据SQL分析平台/中间件，支持对接适配多类外部开源SQL执行引擎，如Spark、Hive等。

背景

SuperSQL是一款自研的跨数据源、跨数据中心、跨执行引擎的高性能大数据SQL中间件，满足对位于不同数据中心的不同类型数据源的数据联合分析/即时查询的需求。SuperSQL的目标是成为公司内部统一的SQL分析中间件，实现以下三点的价值：

解决业务数据孤岛，最大化数据的使用价值
执行引擎最优选择，提升业务使用数据效率
优化集群资源使用，解决业务资源使用瓶颈

SuperSQL基于Apache社区Calcite[1]动态数据管理框架构建，并围绕上述目标对Calcite Parser/Planner/MetaStore等组件做了大量的定制、扩展和优化。SuperSql的主要特性包括：

跨数据源查询：支持通过JDBC对接MySQL、PostgreSQL、TBase、Hive （ThriftServer）、SparkSQL、H2、Oracle、Phoenix (HBase)、ElasticSearch等数据源，且支持对接同一类数据源的不同版本（如Hive 2.3.3与Hive 3.1.1）；
SQL算子下推：支持常用SQL操作下推数据源执行，具体包括Project、Filter、Aggregate、Join、Sort、Union、Intersect、Except、Limit、Offset、UDF和Nested Query；
SQL引擎CBO（基于代价优化）：基于Volcano模型，选择最优的查询执行物理计划；
跨数据中心CBO：将集群负载、网络带宽等因子纳入代价估算，选择最优的跨数据中心执行计划，拆分子查询到不同DC的多个计算引擎执行；
最优计算引擎选择：支持对接多种不同类型的分布式计算引擎 (如Spark, Hive, Flink, Presto)，支持为每个SQL智能挑选最优的执行引擎；
标准SQL语法：支持SQL 2003、Oracle12和MySQL5语法。

SuperSQL的主要应用场景包括：

最低0.47元/天解锁文章

腾讯技术工程

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。