深入浅出Calcite与SQL CBO（Cost-Based Optimizer）优化

最新推荐文章于 2024-07-11 11:14:34 发布

zzzzMing

最新推荐文章于 2024-07-11 11:14:34 发布

阅读量963

点赞数

分类专栏： java 文章标签： calcite 大数据

本文链接：https://blog.csdn.net/jiangzhali1623/article/details/108628277

版权

本文深入探讨了Calcite在大数据领域的应用，作为通用查询引擎，它提供了SQL管理和数据处理能力。Calcite支持RBO（Rule-Based Optimization）和CBO（Cost-Based Optimization）两种SQL优化方式，CBO通过评估Cost智能选择最优执行计划。文中还介绍了Calcite的HepPlanner和VolcanoPlanner优化器，并给出了代码样例以展示RBO和CBO的差异。

摘要由CSDN通过智能技术生成

文章目录

Calcite简介与CBO介绍
- - Calcite背景与介绍
  - SQL优化与CBO
Calcite优化器
- - HepPlanner优化器与VolcanoPlanner优化器
  - Calcite优化样例代码介绍

前阵子工作上需要用到Calcite做一些事情，然后发现这个东西也是蛮有意思的，就花了些时间研究了一下。本篇主要围绕SQL 优化这块来介绍Calcite，后面会介绍Hive如何Calcite进行SQL的优化。

此外，也将Calcite的一些使用样例整理成到github，https://github.com/shezhiming/calcite-demo。里面包含了基础的CSV适配器例子，从这个例子延伸出的SQL解析，校验，RBO优化，CBO优化，以及自定义RelNode，自定义Cost信息，自定义rule等使用用例。如果觉得有帮助不妨点个start吧。

Calcite简介与CBO介绍

Calcite背景与介绍

先来说Calcite出现的背景，在上世纪，关系型数据库系统基本主导了数据处理领域，但是在Google三篇创世纪论文发表后，大家开始意识到，一种适合所有场景的数据库是不存在的。事实上，今天也确实是这样，许多特定场景下的数据处理系统已经成为主流，比如流处理领域的Flink，Storm，批处理领域的Spark SQL，文本搜索领域的Elasticsearch等等。而在开发不同特定场景的数据处理系统的时候，有两个主要问题。

一个是每种系统基本都需要查询语言（SQL）及相关拓展（比如流式SQL查询），或是开发过程中碰到查询优化问题，没有一个统一框架，那么每个系统都要一套自己的查询解析框架，那无疑是在重复造轮子。
另一个问题是，开发的这些系统通常要对接或集成其他系统，比如Kylin集成MR，Spark，Hbase等，如何支持跨异构数据源也是一个问题。

Calcite就是为了解决这些问题而生的。

说完背景，再来简单介绍Calcite。从功能上说，Calcite提供了通过SQL管理数据的能力，但是它本身不存储数据。最简单的例子，假如你有一些CSV文件，想通过SQL来查询这些CSV文件，那Calcite就很适合。要做到这一点，只需要提供一个有关CSV的适配器，告诉Calcite文件位置，字段这些信息（这些信息称为Schema）。Calcite就可以帮你实现SQL查询这些CSV文件，这只是最基础的功能。当然这个例子有些鸡肋，将CSV可以直接导入到Mysql同样能用SQL查询，但换个东西，Elasticsearch的数据，你总不能导到Mysql再用SQL查吧，这时候就能用Calcite实现SQL检索ES的数据。

具体CSV适配器例子，可以看我在最开始的github代码里面看到，