flink-8 重分区算子

最新推荐文章于 2024-03-09 23:52:26 发布

VIP文章爱吃甜食_

最新推荐文章于 2024-03-09 23:52:26 发布

阅读量1.5k

点赞数 1

分类专栏： Flink

本文链接：https://blog.csdn.net/a3125504x/article/details/108694645

版权

重分区算子

重分区算子种类
Random Partitioning
Rebalancing
Rescaling
示例：对filter后的数据进行重分区
定义分区
广播变量

重分区算子种类

重分区算子用来对数据进行重新分区，可以用来解决数据倾斜问题

Random Partitioning
- 根据均匀分布随机分配元素，（类似于random.nextInt(3)，0 - 3 在概率上是均匀的）
- dataStream.shuffle()
Rebalancing
- 分区元素循环，每个分区创建相等的负载。数据发生倾斜的时候可以用于性能优化
- 对数据集进行再平衡，重分组，消除数据倾斜
- dataStream.rebalance()
Rescaling
- rescale与rebalance很像，也是将数据均匀分布到各下游各实例上，但它的传输开销更小，因为rescale并不是将每个数据轮询地发送给下游每个实例，而是就近发送给下游实例
- dataSteam.rescale()
Custom Partitioning
- 自定义分区需要时间Paritition接口
  - dataStream.partitionCustom(partitioner, “someKey”)
  - 或者dataStream.partitionCustom(partitioner,0)
Brodcasting
- 即广播变量。将数据分发到每一个JVM进程，供当前进程的所有线程共享数据。

Random Partitioning

上游数据会随机的选择下游的一个分区下发数据
在这里插入图片描述

Rebalancing

第一次随机选择一个分区，后续按照顺序轮序

注意，以下问题没考证

据说老版本的Rebalancing第一次选择的分区是固定的，因此当数据少的时候，第一个固定的分区反而会数据倾斜，不过现在没这个问题了

在这里插入图片描述

Rescaling

根据资源使用情况动态调节同一作业的数据分布，根据物理实例部署时的资源共享情况动态调节数据分布，目的是让数据尽可能的在同一 solt 内流转，以减少网络开销。

stream.setParallelism(4).rescale.print().setParallelism(2)
// 前面会4个分区，后面算子只有2个分区。
// 那么前面4个分区会映射到后面的2个分区中
// 例如4中的0,1 映射到后面的 0 分区，2,3映射到后面1分区

// 若
stream.setParallelism(2).rescale

最低0.47元/天解锁文章

爱吃甜食_

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
flink-8 重分区算子

重分区算子重分区算子种类Random PartitioningRebalancingRescaling示例：对filter后的数据进行重分区定义分区广播变量重分区算子种类重分区算子用来对数据进行重新分区，可以用来解决数据倾斜问题Random Partitioning根据均匀分布随机分配元素，（类似于random.nextInt(3)，0 - 3 在概率上是均匀的）dataStream.shuffle()Rebalancing分区元素循环，每个分区创建相等的负载。数据发生倾斜的时候可以
复制链接

扫一扫