Apache Kyuubi 客户端使用教程
项目介绍
Apache Kyuubi™ 是一个分布式和多租户的网关,旨在提供数据仓库和湖仓上的无服务器 SQL 服务。Kyuubi 通过 Thrift JDBC/ODBC 接口为终端用户提供了一个纯 SQL 网关,用于操作大规模数据,并使用预编程和可扩展的 Spark SQL 引擎。这种“开箱即用”的模型最小化了终端用户使用 Spark 的障碍和成本。在服务器端,Kyuubi 服务器和引擎的多租户架构提供了高效的资源管理和隔离。
项目快速启动
环境准备
在开始之前,请确保您已经安装了以下软件:
- Java 8 或更高版本
- Apache Maven
- Git
克隆项目
首先,克隆 Apache Kyuubi 客户端项目到本地:
git clone https://github.com/apache/kyuubi-client.git
cd kyuubi-client
构建项目
使用 Maven 构建项目:
mvn clean install -DskipTests
启动 Kyuubi 客户端
构建完成后,您可以使用以下命令启动 Kyuubi 客户端:
java -jar target/kyuubi-client-<version>.jar
应用案例和最佳实践
交互式分析
Kyuubi 是一个先进的企业级快速分析平台,适用于在大数据上进行交互式可视化分析,底层使用现代计算框架,如 Apache Spark、Apache Flink 和 Trino 等。通过 JDBC/ODBC,用户可以直接访问 Kyuubi 并通过 SQL 高效地运行查询,或者由 BI 工具生成查询。
多工作负载支持
Kyuubi 可以轻松支持多个不同的工作负载,使用单一平台、一份数据和一个 SQL 接口。这使得 Kyuubi 非常适合需要在同一基础设施上运行多种分析任务的场景。
典型生态项目
Apache Spark
Kyuubi 的核心是基于 Apache Spark 构建的,提供了强大的分布式计算能力。通过与 Spark 的紧密集成,Kyuubi 能够处理大规模数据集并提供高性能的 SQL 查询服务。
Apache Flink
虽然 Kyuubi 主要基于 Spark,但它也支持与 Apache Flink 的集成,为用户提供更多选择和灵活性。
Trino
Trino(原名 PrestoSQL)是一个高性能的分布式 SQL 查询引擎,Kyuubi 也支持与 Trino 的集成,进一步扩展了其生态系统。
通过这些集成,Kyuubi 构建了一个强大的生态系统,支持从数据湖到数据仓库的各种数据处理需求。