Calcite技术研究

Apache Calcite是一个开源的软件框架,用于查询处理、优化和查询语言支持,广泛应用于数据处理系统如Hive、Flink等。其核心特点是提供查询优化、SQL支持和跨平台查询能力,支持多种数据引擎,且优化器高度可扩展。Calcite包含查询解析、优化器、元数据提供者和适配器,允许在不同数据源上执行和优化查询,适配器接口允许与各种数据处理引擎集成。
摘要由CSDN通过智能技术生成

原文作者:王长春,来自平安银行零售大数据团队

概述

Apache Calcite是一个基础的软件框架,它提供了查询处理、查询优化以及查询语言支持的能力。很多流行的开源数据处理系统例如Apache Hive,Apache Storm,ApacheFlink,Druid等都采用了它。

下图是采用Apache Calcite的开源数据处理系统,以及Calcite能连接到的数据源。

大多数数据处理系统是使用Calcite来做SQL解析和查询优化。还有部分使用Avatica(Calcite的子项目)来构建自己的JDBC driver。还有部分使用Calcite来重写查询请求以使用物化视图。

最近十几年来,出现了很多专门的数据处理引擎。例如列式存储、流处理引擎、文档搜索引擎等等。这些引擎宣称他们在特殊方面能提供更高“性价比”的性能,并且宣称“one size fits all”范式的时代已经终结了。Spark、Storm、Flink、Elasticsearch、Druid等多种引擎的流行确实说明了这一点。

这些数据处理引擎都面临着一些共同但是难以解决的问题。

  • 一是数据处理引擎都要做查询优化以及提供sql查询语言或者其他DSL查询语言。
  • 二是使用者可能使用了多个专门的数据引擎,例如使用了ES、Spark、Druid.那么使用者很可能会有在异构数据源上支持查询以及查询优化的需求。

Apache Calcite就是为解决这些问题而设计的。Calcite提供了所有数据处理系统所需要的查询执行、查询优化、查询语言等能力。但是Calcite没有提供数据存储以及数据管理的能力,这两个能力是由各自的数据处理引擎来提供的。此外,Calcite提供了跨平台查询优化能力。

总结一下,Calcite在现在这么流行,主要原因如下:

  • 开源并完全按照Apache基金会的规则规范运作。Calcite已于2013年成为Apache顶级项目。
  • Calcite使用Java开发,便于被数据处理引擎集成。
  • Calcite数据模型强大,既能支持流式数据处理引擎,也能支持批式数据处理引擎。
  • Calcite优化器的每个模块都是可插拔的可扩展的,包括rules和成本模型。这使得Calcite优化器非常灵活。
  • Calcite能在多个数据处理引擎上执行查询以及做查询优化。
  • Calcite提供了ANSI 标准SQL,以及各种SQL dialect. 另外Calcite提供了符合JDBC 规范的Driver。<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值