探索高性能数据库加速利器：Apache Gluten（Incubating）

余靖年Veronica

于 2024-08-06 08:19:13 发布

阅读量357

点赞数 8

本文链接：https://blog.csdn.net/gitblog_00043/article/details/140943942

版权

探索高性能数据库加速利器：Apache Gluten（Incubating）

incubator-glutenGluten is a middle layer responsible for offloading JVM-based SQL engines' execution to native engines.项目地址:https://gitcode.com/gh_mirrors/in/incubator-gluten

Apache Gluten是一个创新的开源项目，旨在为基于JVM的SQL引擎提供中间层，以利用原生引擎的执行性能。通过将Spark SQL的工作负载卸载到本地库，Gluten实现了Spark的可扩展性和本地库的高效性能的完美结合。

1. 项目简介

在大数据处理领域中，尽管Apache Spark拥有稳定的分布式计算能力和广泛的应用，但其性能优化逐渐接近瓶颈。为此，Gluten应运而生。这个项目的核心是将Spark的物理计划转换为Substrait计划，然后发送到本地执行，从而利用诸如Clickhouse和Velox等高性能本地库的能力。Gluten通过JNI接口与这些库交互，并保持Spark的分布式控制流，保证了操作的透明性和易用性。

2. 技术剖析

Gluten采用Substrait作为跨语言的数据计算规范，将Spark的物理计划转换后传递给本地代码执行。本地执行器则构建出运算符链，利用其高性能的计算能力进行数据处理。此外，它还支持统一内存管理、列式数据交换、回退机制以及度量收集等功能。目前，已经实现对Clickhouse和Velox的支持，并具备扩展至其他后台的能力。

3. 应用场景

大数据查询加速：对于需要高效处理大规模数据集的应用，Gluten能显著提升SQL查询的速度，减少等待时间。
实时数据分析：在线业务需要快速响应复杂查询时，Gluten可以提高系统的响应速度和吞吐量。
云环境中的性能优化：在云计算环境中，通过Gluten可以更有效地利用硬件资源，降低运行成本。

4. 项目特点

无侵入式集成：Gluten作为一个Spark插件，无需修改DataFrame API或SQL语法即可使用。
灵活的后台切换：支持多种高性能本地库，可根据需求选择合适的加速器。
强大的性能提升：实测结果表明，Gluten能够实现整体性能的显著提升，某些查询甚至可达14.53倍的加速。
广泛兼容性：目前支持Spark 3.2、3.3和3.4版本，并有扩展更多版本的计划。

尝试Apache Gluten

要开始使用Gluten，你可以直接引用已发布的jar包，或者从源码编译并配置Spark。项目文档提供了详细的安装和使用指南。

Apache Gluten是一个正在积极发展的项目，它不仅为Spark SQL带来了性能飞跃，也为大数据领域的技术探索开辟了新的可能性。如果你对大数据处理的效率有所要求，那么Apache Gluten绝对值得一试。加入社区，一起推动大数据技术的进步吧！

点击这里访问Apache Gluten项目主页

incubator-glutenGluten is a middle layer responsible for offloading JVM-based SQL engines' execution to native engines.项目地址:https://gitcode.com/gh_mirrors/in/incubator-gluten

余靖年Veronica

关注

8
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
探索高性能数据库加速利器：Apache Gluten（Incubating）

探索高性能数据库加速利器：Apache Gluten（Incubating） incubator-glutenGluten is a middle layer responsible for offloading JVM-based SQL engines' execution to native engines.项目地址:https://gitcode.com/gh_mirrors/in/in...
复制链接

扫一扫