【Flink】关于Flink:Flink-SortShuffle-实现简介

九师兄

已于 2022-09-11 19:50:53 修改

阅读量530

点赞数 2

分类专栏：大数据-flink 文章标签： flink 大数据 big data

于 2022-06-19 16:24:11 首次发布

本文为博主九师兄（QQ:541711153 欢迎来探讨技术）原创文章，未经允许博主不允许转载。

本文链接：https://blog.csdn.net/qq_21383435/article/details/125358920

版权

大数据-flink 专栏收录该内容

838 篇文章 844 订阅 ¥99.90 ¥299.90

订阅专栏

在这里插入图片描述

1.概述

官网：

Flink 中基于排序的阻塞 Shuffle 实现 - 第一部分

Flink 中基于排序的阻塞 Shuffle 实现——第二部分

Flink 作为批流一体的大数据计算引擎，大规模批数据处理也是 Flink 数据处理能力的重要组成部分。随着 Flink 的版本迭代，其批数据处理能力也在一直加强，sort-shuffle 的引入，使得 Flink 在应答大规模批数据处理工作时更加熟能生巧。

2.数据 Shuffle 简介

数据 shuffle 是批数据处理作业的一个重要阶段，在这一阶段中，上游解决节点的输入数据会被长久化到内部存储中，之后上游的计算节点会读取这些数据并进行解决。这些长久化的数据不仅仅是一种计算节点间的数据交换模式，还在谬误复原中施展着重要作用。

目前，有两种批数据 shuffle 模型被现有的大规模分布式计算零碎采纳，别离是基于 hash 的形式以及基于 sort 的形式：

基于 hash 形式的外围思路是将发送给上游不同并发生产工作的数据写到独自的文件中，这样文件自身就成了一个天然的辨别不同数据分区的边界࿱

了解本专栏

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Flink】关于Flink:Flink-SortShuffle-实现简介

转载：关于Flink:Flink-SortShuffle-实现简介Flink 作为批流一体的大数据计算引擎，大规模批数据处理也是 Flink 数据处理能力的重要组成部分。随着 Flink 的版本迭代，其批数据处理能力也在一直加强，sort-shuffle 的引入，使得 Flink 在应答大规模批数据处理工作时更加熟能生巧。数据 shuffle 是批数据处理作业的一个重要阶段，在这一阶段中，上游解决节点的输入数据会被长久化到内部存储中，之后上游的计算节点会读取这些数据并进行解决。这些长久化的数据不仅仅是一种计
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

九师兄 你的鼓励是我做大写作的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。