探索高性能数据库加速利器:Apache Gluten(Incubating)

探索高性能数据库加速利器:Apache Gluten(Incubating)

incubator-glutenGluten is a middle layer responsible for offloading JVM-based SQL engines' execution to native engines.项目地址:https://gitcode.com/gh_mirrors/in/incubator-gluten

Apache Gluten是一个创新的开源项目,旨在为基于JVM的SQL引擎提供中间层,以利用原生引擎的执行性能。通过将Spark SQL的工作负载卸载到本地库,Gluten实现了Spark的可扩展性和本地库的高效性能的完美结合。

1. 项目简介

在大数据处理领域中,尽管Apache Spark拥有稳定的分布式计算能力和广泛的应用,但其性能优化逐渐接近瓶颈。为此,Gluten应运而生。这个项目的核心是将Spark的物理计划转换为Substrait计划,然后发送到本地执行,从而利用诸如Clickhouse和Velox等高性能本地库的能力。Gluten通过JNI接口与这些库交互,并保持Spark的分布式控制流,保证了操作的透明性和易用性。

2. 技术剖析

Gluten采用Substrait作为跨语言的数据计算规范,将Spark的物理计划转换后传递给本地代码执行。本地执行器则构建出运算符链,利用其高性能的计算能力进行数据处理。此外,它还支持统一内存管理、列式数据交换、回退机制以及度量收集等功能。目前,已经实现对Clickhouse和Velox的支持,并具备扩展至其他后台的能力。

3. 应用场景

  • 大数据查询加速:对于需要高效处理大规模数据集的应用,Gluten能显著提升SQL查询的速度,减少等待时间。
  • 实时数据分析:在线业务需要快速响应复杂查询时,Gluten可以提高系统的响应速度和吞吐量。
  • 云环境中的性能优化:在云计算环境中,通过Gluten可以更有效地利用硬件资源,降低运行成本。

4. 项目特点

  • 无侵入式集成:Gluten作为一个Spark插件,无需修改DataFrame API或SQL语法即可使用。
  • 灵活的后台切换:支持多种高性能本地库,可根据需求选择合适的加速器。
  • 强大的性能提升:实测结果表明,Gluten能够实现整体性能的显著提升,某些查询甚至可达14.53倍的加速。
  • 广泛兼容性:目前支持Spark 3.2、3.3和3.4版本,并有扩展更多版本的计划。

尝试Apache Gluten

要开始使用Gluten,你可以直接引用已发布的jar包,或者从源码编译并配置Spark。项目文档提供了详细的安装和使用指南。

Apache Gluten是一个正在积极发展的项目,它不仅为Spark SQL带来了性能飞跃,也为大数据领域的技术探索开辟了新的可能性。如果你对大数据处理的效率有所要求,那么Apache Gluten绝对值得一试。加入社区,一起推动大数据技术的进步吧!

点击这里访问Apache Gluten项目主页

incubator-glutenGluten is a middle layer responsible for offloading JVM-based SQL engines' execution to native engines.项目地址:https://gitcode.com/gh_mirrors/in/incubator-gluten

  • 8
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

余靖年Veronica

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值