Spark 教程 - 京东 Spark 自研 Remote Shuffle Service 在大促中的应用实践

用心去追梦

于 2024-07-13 16:33:33 发布

阅读量394

点赞数 5

文章标签： spark 服务器大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33240556/article/details/140402198

版权

京东在其大数据处理平台中，特别是在大促期间，面临极端的流量高峰和数据处理挑战，为了提升Spark作业的性能和稳定性，京东自研了Remote Shuffle Service。以下是该实践的一些关键要点：

1. 背景与动机

大促流量压力：在年度大促如“618”、“双11”期间，京东平台会经历巨大的流量洪峰，伴随着海量的数据处理需求，这对数据处理系统的性能提出了极高的要求。
原有shuffle限制：传统的Spark Shuffle机制在大规模数据处理时可能会遇到瓶颈，如本地磁盘I/O压力大、网络传输效率低下、资源竞争激烈等问题，影响整体作业执行效率。

2. Remote Shuffle Service介绍

京东自研的Remote Shuffle Service旨在解决上述问题，通过将Shuffle过程中数据的临时存储从Executor节点移到专门的远程服务上，实现以下几个目标：

减轻本地存储压力：通过远程服务集中存储Shuffle数据，减轻每个Executor节点的磁盘负担。
优化网络传输：优化Shuffle数据在网络间的传输路径，减少跨节点数据交换的延迟。
资源隔离与优化：实现Shuffle资源的独立管理和优化，避免与其他计算任务资源竞争，提高整体作业执行的稳定性和效率。

3. 应用实践

性能提升：在大促场景下，京东通过应用Remote Shuffle Service，显著降低了数据处理延迟，提高了作业执行速度。例如，某些关键的SparkStreaming案例中，原本耗时较长的窗口计算作业，通过使用远程Shuffle服务，运行时间从分钟级别缩短至秒级别。
资源管理：自研服务允许更细粒度的资源调配和监控，确保在高峰期也能高效利用资源，避免因资源瓶颈导致的作业失败。
稳定性保障：通过远程Shuffle服务的高可用设计，增强了Spark作业在高负载下的稳定性，减少了因局部节点故障导致的作业中断情况。
灵活扩展：随着数据量的增长，该服务能够快速扩展以满足更高的数据处理需求，确保在大促期间的系统弹性。

4. 总结

京东通过自研Remote Shuffle Service并在大促中应用，不仅解决了大规模数据处理中的性能瓶颈，还提升了系统的稳定性和资源利用效率，是针对特定业务场景进行技术优化的一个成功案例。这一实践也展示了大数据处理中定制化技术方案对于应对极端业务挑战的重要性。

用心去追梦

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Spark 教程 - 京东 Spark 自研 Remote Shuffle Service 在大促中的应用实践

京东在其大数据处理平台中，特别是在大促期间，面临极端的流量高峰和数据处理挑战，为了提升Spark作业的性能和稳定性，京东自研了Remote Shuffle Service。以下是该实践的一些关键要点：京东自研的Remote Shuffle Service旨在解决上述问题，通过将Shuffle过程中数据的临时存储从Executor节点移到专门的远程服务上，实现以下几个目标：京东通过自研Remote Shuffle Service并在大促中应用，不仅解决了大规模数据处理中的性能瓶颈，还提升了系统的稳定性和资源利
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。