Flink 源码分析之 FlinkConsumer 是如何保证一个 partition 对应一个 thread 的

最新推荐文章于 2023-12-21 08:25:51 发布

哥伦布112

最新推荐文章于 2023-12-21 08:25:51 发布

阅读量212

点赞数

分类专栏： flink

本文链接：https://blog.csdn.net/u013939918/article/details/107704532

版权

flink 专栏收录该内容

58 篇文章 10 订阅

订阅专栏

本文深入探讨了Flink连接Kafka时如何确保每个partition对应一个独立的线程。通过分析FlinkKafkaConsumerBase的open方法和setAndCheckDiscoveredPartition方法，揭示了基于topic和partition对任务并行度进行分配的策略。此外，还展示了如何在自定义的RichParallelSourceFunction中借鉴这一策略来实现并行数据发送。

摘要由CSDN通过智能技术生成

我们都知道flink 连接kafka时，默认是一个partition对应一个thread，它究竟是怎么实现的呢？以及到我们自己定义 RichParallelSourceFunction 的时候如何借鉴这部分代码呢？

我们一起来看一下(基于flink-1.8)

看过flink kafka连接器源码的同学对 FlinkKafkaConsumerBase 应该不陌生(没有看过的也无所谓，我们一起来看就好)

一起来看一下 FlinkKafkaConsumerBase 的 open 方法中关键的部分

//获取fixed topic's or topic pattern 's partitions of this subtask

final List<KafkaTopicPartition> allPartitions = partitionDiscoverer.discoverPartitions();

没错这就是查看Flink Consumer 保证一个partition对应一个Thread的入口方法

public List<KafkaTopicPartition> discoverPartitions() throws WakeupException, ClosedException {

if (!closed && !wakeup) {

try {

...

// (2) eliminate partition that are old partitions or should not be subscribed by this subtask

if (newDiscoveredPartitions == null || newDiscoveredPartitions.isEmpty()) {

throw new RuntimeException("Unable to retrieve any partitions with KafkaTopicsDescriptor: " + topicsDescriptor);

} else {

Iterator<KafkaTopicPartition> iter = newDiscoveredPartitions.iterator();

KafkaTopicPartition nextPartition;

while (iter.hasNext()) {

nextPartition = iter.next();

//从之前已经发现的KafkaTopicPartition中移除，其二可以保证仅仅是这个subtask的partition

if (!setAndCheckDiscoveredPartition(nextPartition)) {

iter.remove();

}

return newDiscoveredPartitions;

...

}

关键性的部分 setAndCheckDiscoveredPartition 方法，点进去

public boolean setAndCheckDiscoveredPartition(KafkaTopicPartition partition) {

if (isUndiscoveredPartition(partition)) {

discoveredPartitions.add(partition);

//kafkaPartition与indexOfThisSubTask --对应

return KafkaTopicPartitionAssigner.assign(partition, numParallelSubtasks) == indexOfThisSubtask;

}

return false;

}

indexOfThisSubtask 表示当前线程是那个subtask，numParallelSubtasks 表示总共并行的subtask 的个数，当其返回true的时候，表示此partition 属于此indexOfThisSubtask。

下面来看一下具体是怎么划分的

public static int assign(KafkaTopicPartition partition, int numParallelSubtasks) {

int startIndex = ((partition.getTopic().hashCode() * 31) & 0x7FFFFFFF) % numParallelSubtasks;

// here, the assumption is that the id of Kafka partitions are always ascending

// starting from 0, and therefore can be used directly as the offset clockwise from the start index

return (startIndex + partition.getPartition()) % numParallelSubtasks;

}

基于topic 和 partition，然后对numParallelSubtasks取余。

那么，当我们自己去定义RichParallelSourceFunction的时候如何去借鉴它呢，直接上代码：

public class WordSource extends RichParallelSourceFunction<Tuple2<Long, Long>> {

private Boolean isRun = true;

@Override

public void run(SourceContext<Tuple2<Long, Long>> ctx) throws Exception {

int start = 0;

int numberOfParallelSubtasks = getRuntimeContext().getNumberOfParallelSubtasks();

while (isRun) {

start += 1;

if (start % numberOfParallelSubtasks == getRuntimeContext().getIndexOfThisSubtask()) {

ctx.collect(new Tuple2<>(

Long.parseLong(start+""),

1L));

Thread.sleep(1000);

System.out.println("Thread.currentThread().getName()=========== " + Thread.currentThread().getName());

}

@Override

public void cancel() {

isRun = false;

}

当当当，自此，自己定义个RichParallelSourceFunction也可以并行发数据了，啦啦啦啦！

哥伦布112

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flink 源码分析之 FlinkConsumer 是如何保证一个 partition 对应一个 thread 的

我们都知道flink 连接kafka时，默认是一个partition对应一个thread，它究竟是怎么实现的呢？以及到我们自己定义 RichParallelSourceFunction 的时候如何借鉴这部分代码呢？我们一起来看一下(基于flink-1.8)看过flink kafka连接器源码的同学对 FlinkKafkaConsumerBase 应该不陌生(没有看过的也无所谓，我们一起来看就好)一起来看一下 FlinkKafkaConsumerBase 的 open 方法中关键的部分.
复制链接

扫一扫

专栏目录