Calcite技术研究

最新推荐文章于 2024-09-22 19:36:45 发布

Hadoop_SC

最新推荐文章于 2024-09-22 19:36:45 发布

阅读量1.4k

点赞数 1

分类专栏： Hadoop实操

本文链接：https://blog.csdn.net/hadoop_sc/article/details/104592779

版权

Apache Calcite是一个开源的软件框架，用于查询处理、优化和查询语言支持，广泛应用于数据处理系统如Hive、Flink等。其核心特点是提供查询优化、SQL支持和跨平台查询能力，支持多种数据引擎，且优化器高度可扩展。Calcite包含查询解析、优化器、元数据提供者和适配器，允许在不同数据源上执行和优化查询，适配器接口允许与各种数据处理引擎集成。

摘要由CSDN通过智能技术生成

原文作者：王长春，来自平安银行零售大数据团队

概述

Apache Calcite是一个基础的软件框架，它提供了查询处理、查询优化以及查询语言支持的能力。很多流行的开源数据处理系统例如Apache Hive,Apache Storm,ApacheFlink,Druid等都采用了它。

下图是采用Apache Calcite的开源数据处理系统，以及Calcite能连接到的数据源。

大多数数据处理系统是使用Calcite来做SQL解析和查询优化。还有部分使用Avatica(Calcite的子项目)来构建自己的JDBC driver。还有部分使用Calcite来重写查询请求以使用物化视图。

最近十几年来，出现了很多专门的数据处理引擎。例如列式存储、流处理引擎、文档搜索引擎等等。这些引擎宣称他们在特殊方面能提供更高“性价比”的性能，并且宣称“one size fits all”范式的时代已经终结了。Spark、Storm、Flink、Elasticsearch、Druid等多种引擎的流行确实说明了这一点。

这些数据处理引擎都面临着一些共同但是难以解决的问题。