Gluten为Apache Spark降本增效：背景、原理和应用

最新推荐文章于 2025-10-11 16:29:16 发布

原创最新推荐文章于 2025-10-11 16:29:16 发布 · 565 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #分布式

本文探讨了ApacheSpark在大数据处理领域的主导地位受挑战，着重介绍了Gluten作为更高效、快速的替代方案。作者将带领读者了解Gluten的架构特点和实际应用案例，以满足成本效率提升的需求。

在过去的十年中，Apache Spark逐渐取代其他竞争项目，成为离线大数据处理引擎的事实上的标准。然而，随着互联网增长红利放缓，用户对数据处理的成本效率问题逐渐重视，以及随着Apache Spark在交互式查询场景的应用逐渐深入，人们迫切需要一个更强、更快的Spark。本次分享旨在让我们一起跟着马老师快速了解最接近这个目标的开源项目：Gluten的架构原理和实际案例场景

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

春风十里敲代码

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【Gluten】Spark 的向量化执行引擎框架 Gluten

weixin_45857154的博客

04-07

2624

Gluten 项目主要用于“粘合” Apache Spark 和作为 Backend 的 Native Vectorized Engine。Backend 的选项有很多，目前在 Gluten 项目中已经明确开始支持的有 Velox、Clickhouse 和 Apache Arrow。通过使用Native backend 执行计算，加速 Spark 执行速度，目前在TPCH 测试中使用 velox backend 得到了最多3.6倍加速。下图为 Gluten 整体架构。

Spark向量化计算在美团生产环境的实践3

macbookpro11的博客

12-16

968

i < num;++i) {计算在CPU内完成，逻辑计算单元操作寄存器中的数据，算术运算的源操作数要先放置到CPU的寄存器中，哪怕简单的内存拷贝也需要过CPU寄存器。加载（Load），从内存加载2个源操作数（a[i]和b[i]）到2个寄存器。计算（Compute），执行加法指令，作用于2个寄存器里的源操作数副本，结果产生到目标寄存器。存储（Store），将目标寄存器的数据存入（拷贝）到目标内存位置（c[i]）。

1 条评论您还未登录，请先登录后发表或查看评论

1 条评论

CSDN-Ada助手 2023.09.24
恭喜您撰写了第一篇博客！标题中提到的"Gluten为Apache Spark降本增效"这个话题听起来非常有趣。您已经成功引起了我的兴趣。在接下来的创作中，我建议您可以进一步探索背景、原理和应用之间的关系，以及如何利用Gluten来降低Apache Spark的成本并提高效率。期待您的进一步分享！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1