flink-keyby调研

monsterXZB

已于 2023-06-29 15:29:53 修改

阅读量400

点赞数

分类专栏： flink 文章标签： flink 大数据

于 2023-05-31 14:28:12 首次发布

本文链接：https://blog.csdn.net/monsterXZB/article/details/130968291

版权

flink 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Flink的KeyBy操作用于基于键的哈希分区，确保相同键的元素在同一处理任务中。它是逻辑上的分组，实际分区由任务调度器决定。并行度与KeyBy分区的分配通常通过哈希函数进行，以实现数据的均匀分布。可以自定义KeySelector来调整分组策略。

摘要由CSDN通过智能技术生成

flink-keyby调研

keyby的原理

Flink中的keyBy操作是用于根据指定的键将数据流进行哈希分区的操作。它将具有相同键的元素路由到同一个并行处理任务中，这样可以实现基于键的聚合、分组和窗口操作

当应用程序执行KeyBy操作时，Flink会根据指定的键对输入流的每个元素进行键提取操作，从而获取键值。然后，Flink使用哈希函数对键值进行哈希计算，得到一个哈希值。哈希值决定了元素将被分配到哪个分区中。
Flink中的哈希函数是确定性的，即相同的键值始终会得到相同的哈希值。这样可以保证具有相同键的元素始终被分配到同一个分区中，从而实现数据的分组。
在分组完成后，每个分区内的数据可以在相同的计算节点上进行处理。这样可以提高计算效率，减少数据的传输和网络开销。
KeyBy操作常用于数据流的分组聚合操作，例如对某个属性进行求和、计数等聚合操作。通过将具有相同键的数据分配到同一个分区中，可以保证相同键的数据在同一个计算节点上进行聚合操作，从而得到正确的结果。

注意：KeyBy操作只是逻辑上的分组操作，并不保证数据在物理上的分区。具体的数据分区是由Flink的任务调度器决定的

如何理解 KeyBy操作只是逻辑上的分组操作，并不保证数据在物理上的分区?

当我们说KeyBy操作只是逻辑上的分组操作，并不保证数据在物理上的分区时，意味着KeyBy操作仅定义了数据如何分组，而不涉及具体的数据分布和分区策略
实际的数据分区是由Flink的任务调度器负责决定的。任务调度器会考虑多个因素，如计算节点的负载情况、数据传输的成本等，以确定将数据分配到哪个计算节点上进行处理。这个过程是动态的，并且可以根据系统的需求进行优化调整。
换句话说，尽管KeyBy操作会将具有相同键的数据逻辑上分组在一起，但实际的数据分区可能与逻辑上的分组不完全对应。在物理分区方面，Flink会根据任务调度的策略将数据分布在不同的计算节点上，以实现负载均衡和高效的数据处理。

flink 并行度和keyby个数如何分配？

假设你有一个具有100个并行度的数据流，以及一个要进行keyBy分区的操作，生成300个分区。以下是一种可能的分配方式：
- Flink将根据键值对数据流进行哈希分区，生成300个分区。
- Flink将尽量均匀地将这300个分区分配给100个并行任务。
- 每个并行任务可能会处理多个分区，也可能会处理少于300个分区，具体取决于分配的均匀程度和任务的负载情况。
需要注意的是，这种分配方式是一种理想情况下的均匀分配，并且假设数据流中的键值是随机分布的。在实际情况中，数据流的键值分布可能是不均匀的，这可能会导致某些并行任务处理更多的分区，而某些任务处理较少的分区
此外，Flink还提供了其他一些操作来调整数据流的分区，如rebalance、rescale、shuffle等。这些操作可以在keyBy之前或之后使用，以更改数据流的分区方式和并行度，以适应特定的需求和数据分布情况。

如何设计一个算法 20个并行度将keyby均分100份?

DataStream<T> dataStream = ...; // 输入数据流，包含需要分组的数据

DataStream<T> keyByStream = dataStream
    .keyBy(new CustomKeySelector()); // 使用自定义的KeySelector进行分组

需要自定义实现一个CustomKeySelector()方法

public class CustomKeySelector<T> implements KeySelector<T, Integer> {
    private AtomicInteger counter = new AtomicInteger(0);

    @Override
    public Integer getKey(T value) {
        // 使用当前并行度的序号来计算分组编号
        int parallelIndex = getRuntimeContext().getIndexOfThisSubtask();
        int group = (parallelIndex * 5 + counter.getAndIncrement()) % 100;
        return group;
    }
}

请注意，具体的分组策略和分组编号的计算可以根据实际情况进行调整。上述示例中使用了一种简单的计算方法，将并行度序号乘以5，并与计数器相加后取模，以保证分组均匀分布。

在20个并行度下，这种方法可以有效地将数据均匀地分配到100个分组中，以满足您的需求。

monsterXZB

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
flink-keyby调研

Flink中的keyBy操作是用于根据指定的键将数据流进行哈希分区的操作。它，这样可以实现基于键的聚合、分组和窗口操作当应用程序执行KeyBy操作时，Flink会根据指定的键对输入流的每个元素进行键提取操作，从而获取键值。然后，Flink中的哈希函数是确定性的，即相同的键值始终会得到相同的哈希值。这样可以保证具有中，从而实现数据的分组。在分组完成后，。KeyBy操作常用于数据流的分组聚合操作，例如对某个属性进行求和、计数等聚合操作。
复制链接

扫一扫

专栏目录