Apache Kyuubi:大数据的无服务器SQL门户
kyuubi项目地址:https://gitcode.com/gh_mirrors/ky/kyuubi
项目简介
Apache Kyuubi 是一个分布式且多租户的入口,为用户提供在数据仓库和湖仓上的服务化SQL功能。它的设计目标是让用户以类似HiveServer2的方式,无需编程,仅通过Thrift JDBC/ODBC接口就能轻松处理大规模的数据。Kyuubi的核心理念在于最小化用户在客户端使用Spark时的复杂度,同时在服务器端提供资源隔离、数据安全、高可用性和高并发等管理特性。
技术剖析
Kyuubi作为一个纯SQL网关,其核心特性包括:
- 类似HiveServer2的API:Kyuubi提供了与HiveServer2兼容的接口,使得迁移现有的Hive应用到Spark SQL变得更加平滑。
- 支持多租户Spark:Kyuubi采用多租户架构,能够在同一系统中支持多个独立的Spark实例,实现了计算资源的隔离。
- 服务器无状态化:Kyuubi将Spark引擎运行在无服务器模式下,这提高了服务稳定性和客户端并发性能。
应用场景
从HiveServer2迁移到Spark SQL
Kyuubi可以帮助你将现有基于HiveServer2的工作负载平滑地迁移到Spark SQL上。通过Kyuubi,你可以利用Spark的高性能优势,同时保持对已有工具和系统的兼容性。此外,Kyuubi的多租户设计能够实现更好的资源管理和访问控制。
数据湖/湖仓支持
Kyuubi致力于成为统一的数据湖管理平台,支持ETL处理和BI分析等多种工作负载,只需一份数据,即可使用SQL进行操作。未来还将支持更多元化的数据湖功能,如逻辑视图、多种目录和SQL标准授权。
云原生部署
无论是Hadoop YARN还是Kubernetes,Kyuubi都能适应不同的集群环境,实现弹性扩展和资源优化。
项目特点
- 易用性:Kyuubi简化了用户对大数据的访问,让非技术人员也能通过SQL轻松处理大数据。
- 安全性:支持多租户和数据隔离,保证了业务数据的安全性。
- 稳定性:Kyuubi的无状态设计提高了服务的高可用性和并发性能。
- 可扩展性:通过插件机制,可以灵活添加新的功能或适配更多的数据源和计算引擎。
开始使用
想要了解更多关于Kyuubi的信息,可以参考在线文档。准备好开始了吗?可以从快速入门教程开始你的Kyuubi之旅。
Apache Kyuubi由活跃的社区驱动,并持续发展,欢迎贡献代码,一起构建这个强大的大数据平台。让我们一同探索如何借助Kyuubi的力量,释放大数据的潜力,点亮你的数据世界。