Spark 教程 - Firestorm - 腾讯自研Remote Shuffle Service在Spark云原生场景的实践

用心去追梦

于 2024-07-13 16:35:52 发布

阅读量422

点赞数 3

文章标签： spark 云原生大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33240556/article/details/140402254

版权

Firestorm是腾讯自研的一款Remote Shuffle Service，专门针对Spark云原生场景进行优化，旨在解决大规模Spark作业在执行过程中遇到的Shuffle相关性能瓶颈。下面是关于Firestorm的关键实践和特点的概述：

1. 目标与背景

大规模任务处理：腾讯内部每天运行着上百万的Spark任务，这些任务在处理过程中经常遇到Shuffle相关的各种问题，如磁盘I/O瓶颈、网络拥堵等。
计算存储分离趋势：为了更高效地利用硬件资源，腾讯正逐步推进计算与存储分离的部署模式，这促使了Firestorm的诞生。

2. 设计与架构

云原生集成：Firestorm设计为完全兼容云原生环境，能在Kubernetes等容器编排系统上无缝部署，实现资源的弹性伸缩和高效管理。
远程Shuffle机制：通过将Shuffle过程中数据的中间存储从Executor节点转移到远程服务，减轻了本地存储压力，同时优化网络传输，减少数据移动延迟。
高性能存储：可能采用高性能、分布式的存储系统来托管Shuffle数据，确保数据访问速度和可靠性。

3. 性能优化

减少网络传输：通过智能的数据分区和优化的网络协议，减少数据在网络中的传输量和时间。
内存管理与复用：优化内存使用策略，提高数据在内存中的处理效率，减少磁盘溢写。
负载均衡：实现Shuffle请求的高效负载均衡，确保服务稳定性和资源高效利用。

4. 实践效果

性能提升：根据公开资料，使用Firestorm后，一些Spark作业的运行时间显著减少，例如，有的查询从原生Spark Shuffle的12秒左右缩短到了更短。
稳定性增强：通过集中管理和监控Shuffle服务，提高了整个Spark作业执行的稳定性和容错能力。
资源优化：计算与存储的解耦让资源分配更加灵活，有助于提高整体集群资源的利用率。

5. 云原生适应性

与云生态融合：Firestorm设计考虑了与云服务的深度整合，如与云存储服务、监控服务的集成，以及支持云原生的服务发现和配置管理。
自动化运维：利用云原生的自动化运维能力，简化运维复杂度，实现快速部署、故障恢复和版本升级。

综上所述，Firestorm是腾讯针对Spark在云原生环境下的Shuffle性能瓶颈所提出的一种解决方案，它通过一系列创新设计显著提升了Spark作业的执行效率、稳定性和资源利用效率，是云原生时代大数据处理领域的一项重要实践。

用心去追梦

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Spark 教程 - Firestorm - 腾讯自研Remote Shuffle Service在Spark云原生场景的实践

Firestorm是腾讯自研的一款Remote Shuffle Service，专门针对Spark云原生场景进行优化，旨在解决大规模Spark作业在执行过程中遇到的Shuffle相关性能瓶颈。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。