Apache Kyuubi 使用教程
kyuubi项目地址:https://gitcode.com/gh_mirrors/ky/kyuubi
项目介绍
Apache Kyuubi 是一个分布式和多租户的网关,旨在为数据仓库和湖仓提供无服务器 SQL 服务。Kyuubi 通过 Thrift JDBC/ODBC 接口为终端用户提供了一个纯 SQL 网关,用于操作大规模数据。它利用预编程和可扩展的 Spark SQL 引擎,实现了“开箱即用”的模型,降低了终端用户使用 Spark 的门槛和成本。
项目快速启动
环境准备
在开始之前,请确保您已经安装了以下软件:
- Java 8 或更高版本
- Apache Spark 3.x
- Docker(可选,用于容器化部署)
下载与配置
-
克隆项目仓库:
git clone https://github.com/apache/kyuubi.git cd kyuubi
-
构建项目:
mvn clean package -DskipTests
-
配置 Kyuubi:
cp conf/kyuubi-defaults.conf.template conf/kyuubi-defaults.conf vi conf/kyuubi-defaults.conf
在配置文件中,至少需要设置以下参数:
kyuubi.backend.bind.port=10009 kyuubi.frontend.bind.port=10010
启动 Kyuubi
-
启动 Kyuubi 服务:
bin/kyuubi start
-
验证服务是否启动成功:
bin/kyuubi status
连接到 Kyuubi
使用 JDBC 客户端连接到 Kyuubi:
beeline -u jdbc:hive2://localhost:10009 -n username -p password
应用案例和最佳实践
交互式分析
Kyuubi 是一个高级的企业级快速分析平台,适用于在大数据上进行交互式可视化分析。通过 JDBC/ODBC,用户可以直接或通过 BI 工具生成的 SQL 访问 Kyuubi 并高效地运行查询。
批处理
Kyuubi 支持轻松提交自包含的应用程序进行批处理,例如 Spark 作业。用户可以通过 Kyuubi 提交和管理这些作业,从而简化批处理工作流程。
MySQL 协议兼容
Kyuubi 提供了一个兼容 MySQL 的接口,允许终端用户使用 MySQL 连接器(如 Connector/J)与 Kyuubi 通信。这使得现有的 MySQL 应用程序可以无缝迁移到 Kyuubi。
典型生态项目
Apache Spark
Kyuubi 的核心是基于 Apache Spark 构建的,提供了强大的数据处理能力。通过与 Spark 的紧密集成,Kyuubi 能够充分利用 Spark 的分布式计算和内存计算特性。
Apache Flink
虽然目前 Kyuubi 主要支持 Spark,但其架构设计考虑了未来对其他计算框架的支持,如 Apache Flink。这将为用户提供更多的选择和灵活性。
Trino
Trino(原名 PrestoSQL)是一个高性能的分布式 SQL 查询引擎,适用于大数据环境。Kyuubi 可以与 Trino 集成,为用户提供更多的查询和分析选项。
通过这些生态项目的集成,Kyuubi 构建了一个强大的数据处理和分析平台,适用于各种大数据应用场景。