《Kyuubi：NetEase 开源的分布式 SQL On Hadoop 框架》

最新推荐文章于 2024-08-13 08:00:20 发布

杜腾金Beguiling

最新推荐文章于 2024-08-13 08:00:20 发布

阅读量650

点赞数 27

本文链接：https://blog.csdn.net/gitblog_01146/article/details/140978139

版权

《Kyuubi：NetEase 开源的分布式 SQL On Hadoop 框架》

incubator-kyuubiKyuubi is a distributed multi-tenant JDBC server for large-scale data processing and analytics, built on top of Apache Spark项目地址:https://gitcode.com/gh_mirrors/in/incubator-kyuubi

1. 项目介绍

Kyuubi（[发音：kju:bi]）是由网易公司贡献给 Apache 孵化器的一个开源项目，它是一个基于 Spark 的多租户、高性能的分布式 SQL On Hadoop 服务框架。Kyuubi 支持通过 JDBC/ODBC 接口进行 SQL 查询，使得开发者可以方便地在 Hadoop 生态中使用 BI 工具或编写数据处理应用程序，无需直接操作低级 API。

主要特点包括：

多租户管理：支持多个独立用户或团队共享集群资源。
高性能查询：利用 Spark 引擎优化 SQL 查询性能。
安全特性：集成 Hadoop 安全机制，提供认证、授权和审计功能。
全面兼容：兼容多种 SQL 标准，支持 Hive Metastore 和多种数据源。

2. 项目快速启动

环境准备

确保已安装以下组件：

Java JDK 8 或更高版本
Maven 3.6 或更高版本
Spark 2.x
Hadoop 2.x

下载并构建项目

克隆项目仓库：

git clone https://github.com/NetEase/incubator-kyuubi.git

进入项目目录并构建：

cd incubator-kyuubi
mvn clean package -DskipTests

启动 Kyuubi 服务器

创建配置文件 conf/kyuubi-defaults.conf 并设置相关参数，例如：

spark.master=yarn
spark.eventLog.enabled=true
kyuubi.frontend.bind.host=0.0.0.0
kyuubi.frontend.port=10009
kyuubi.hive.metastore.uris=thrift://localhost:9083

然后启动 Kyuubi 服务：

./bin/start-kyuubi-server.sh

连接测试

在终端中，你可以使用 beeline（Hive 的命令行工具）来测试连接：

beeline -u "jdbc:hive2://localhost:10009/default;principal=hive/_HOST@YOUR-REALM.COM" -n user -p password

成功连接后，你将看到一个 Beeline 提示符，此时可以执行 SQL 查询。

3. 应用案例和最佳实践

数据可视化：结合 Tableau、Power BI 等商业智能工具，实现 Hadoop 数据的交互式分析和报表制作。
实时数据分析：配合 Spark Structured Streaming，实现实时流数据的 SQL 查询和监控。
ETL 工作流：使用 SQL 脚本替代 Java 或 Python 编写 ETL 任务，降低开发复杂度。
数据湖统一入口：整合不同来源的数据，为用户提供单一的 SQL 访问接口。

最佳实践：

分离计算与存储：将 Kyuubi 部署在单独的节点上，以减少对数据节点的影响。
使用 Kerberos 安全性：开启 Kerberos 以增强系统的安全性。
配置合理的资源：根据工作负载合理分配 Spark executor 和 driver 资源。

4. 典型生态项目

Hadoop: Kyuubi 基于 HDFS 存储数据，并可以访问其他 Hadoop 生态系统中的数据源。
Spark: Kyuubi 利用 Spark 引擎执行 SQL 查询，提供了高性能的计算能力。
Hive: 通过集成 Hive Metastore，Kyuubi 可以直接操作 Hive 表格。
Flink SQL: 尽管不是直接生态，但 Kyuubi 可以作为 Flink SQL 的前端服务，提供 SQL 接口。
Zeppelin / Jupyter Notebook: 结合这些 notebook 工具，可以在 Web 界面里编写和运行 SQL 代码。

请注意，以上信息仅作为基础指南，具体部署和配置可能需要根据实际情况调整。更多详细的文档和使用技巧，请参考项目官方文档 Kyuubi Documentation。

杜腾金Beguiling

关注

27
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
《Kyuubi：NetEase 开源的分布式 SQL On Hadoop 框架》

《Kyuubi：NetEase 开源的分布式 SQL On Hadoop 框架》 incubator-kyuubiKyuubi is a distributed multi-tenant JDBC server for large-scale data processing and analytics, built on top of Apache Spark项目地址:https://gitco...
复制链接

扫一扫