KafkaConnect Offset存储设计

李承一

已于 2023-02-09 23:18:19 修改

阅读量587

点赞数 1

分类专栏：并发与线程文章标签： kafka

于 2023-02-09 00:37:07 首次发布

本文链接：https://blog.csdn.net/NerverSimply/article/details/128882848

版权

并发与线程专栏收录该内容

7 篇文章 0 订阅

订阅专栏

KafkaConnect提供了一个接口OffsetBackingStore用于存储每个Connector当前订阅源实例的位点信息offset（例如MySql的binlog），offset在KafkaConnect中是一个key-value的值，具体由每个Connector自己去定义，OffsetBackingStore只会支持读写字节类型操作（实际上是ByteBuffer）,对于ByteBuffer的序列化和反序列需要Connector自己实现。

public interface OffsetBackingStore {

    /* 启动BackingStore */
    void start();

    /* 停止BackingStore */
    void stop();

    /* 根据指定Key获取对应的value */
    Future<Map<ByteBuffer, ByteBuffer>> get(Collection<ByteBuffer> keys);

    /* 存储key和对应的value */
    Future<Void> set(Map<ByteBuffer, ByteBuffer> values, Callback<Void> callback);

    /* key-value的配置类，这里的Worker是Connect的配置文件中的配置 */
    void configure(WorkerConfig config);
}

从上面的接口参数可以看出，OffsetBackingStore需要支持批量读写key-value操作，是考虑到减少网络请求次数。由于OffsetBackingStore是一个共享资源，可能由许多与单个任务相关联的OffsetStorage实例使用，因此调用者必须确保键包含关于连接器的信息，以便共享名称空间不会导致键冲突。

OffsetBackingStore默认有基于内存的MemoryOffsetBackingStore，用于分布式基于Kafka的KafkaOffsetBackingStore的实现，以及基于文件的FileOffsetBackingStore，本次会介绍比较常用的基于Kafka的实现。

注意不同的connect集群，不能使用相同的config、status和offset三个topic，但是可以复用同一个Kafka。

1、KafkaOffsetBackingStore

KafkaOffsetBackingStore是利用kafka上的topic存储connector中的offset信息，以便下次connector重新起来时可以读取并继续订阅源集群数据，使用时需要事先调用configure方法初始化配置

    // WorkerConfig表示配置文件传递过来的配置
    @Override
    public void configure(final WorkerConfig config) {
        // 获取offset.topic
        String topic = config.getString(DistributedConfig.OFFSET_STORAGE_TOPIC_CONFIG);
        if (topic == null || topic.trim().length() == 0)
            throw new ConfigException("Offset storage topic must be specified");

        // 获取Kafka的集群ID,用于后续的监控
        String clusterId = ConnectUtils.lookupKafkaClusterId(config);
        data = new HashMap<>();

        Map<String, Object> originals = config.originals();
        // 设置producer的配置,主要包括序列化和反序列key和value,以及发送超时时间
        Map<String, Object> producerProps = new HashMap<>(originals);
        producerProps.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, ByteArraySerializer.class.getName());
        producerProps.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, ByteArraySerializer.class.getName());
        producerProps.put(ProducerConfig.DELIVERY_TIMEOUT_MS_CONFIG, Integer.MAX_VALUE);
        ConnectUtils.addMetricsContextProperties(producerProps, config, clusterId);

        Map<String, Object> consumerProps = new HashMap<>(originals);
        // 设置consumer的配置,需要保证和producer的序列化和反序列一致
        consumerProps.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, ByteArrayDeserializer.class.getName());
        consumerProps.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, ByteArrayDeserializer.class.getName());
        ConnectUtils.addMetricsContextProperties(consumerProps, config, clusterId);

        Map<String, Object> adminProps = new HashMap<>(originals);
        ConnectUtils.addMetricsContextProperties(adminProps, config, clusterId);
        Supplier<TopicAdmin> adminSupplier;
        if (topicAdminSupplier != null) {
            adminSupplier = topicAdminSupplier;
        } else {
            // Create our own topic admin supplier that we'll close when we're stopped
            ownTopicAdmin = new SharedTopicAdmin(adminProps);
            adminSupplier = ownTopicAdmin;
        }
        // 这里是取出offset.topic的其他配置
        Map<String, Object> topicSettings = config instanceof DistributedConfig
                                            ? ((DistributedConfig) config).offsetStorageTopicSettings()
                                            : Collections.emptyMap();
        // 这里是用于创建Kafka Connect Offset.topic的配置
        // 该Topic要么人工手动创建,否则由connect帮你创建
        // 关键是需要配置topic的cleanup.policy=compact
        NewTopic topicDescription = TopicAdmin.defineTopic(topic)
                .config(topicSettings) // first so that we override user-supplied settings as needed
                .compacted()
                .partitions(config.getInt(DistributedConfig.OFFSET_STORAGE_PARTITIONS_CONFIG))
                .replicationFactor(config.getShort(DistributedConfig.OFFSET_STORAGE_REPLICATION_FACTOR_CONFIG))
                .build();
        // 初始化offsetLog
        offsetLog = createKafkaBasedLog(topic, producerProps, consumerProps, consumedCallback, topicDescription, adminSupplier);
    }

代码中表示connect会自动帮我们创建offset.topic，用于存储connector中的offset。其中当connect帮我们创建时，offset.topic要求cleanup.policy=compact，该参数的如图所示：

日志的compact操作会根据Key将消息聚合，永久保留最后一次出现时的数据。这样无论什么时候消费消息，都能拿到每个Key的最新版本的数据。这样就可以把connector发送的offset永久存储到topic中，并自动进行聚合操作。聚合操作不是实时发生的，所以这里OffsetBackingStore需要判断如果Key重复的话，自动拿偏移量最大的，或者说最新的数据。

回来看下KafkaOffsetBackingStore的start、stop、get和set三个方法，这三个方法逻辑比较简单，主要部分都交给KafkaBaseLog实现

    @Override
    public void start() {
        log.info("Starting KafkaOffsetBackingStore");
        offsetLog.start();
        log.info("Finished reading offsets topic and starting KafkaOffsetBackingStore");
    }

    @Override
    public void stop() {
        log.info("Stopping KafkaOffsetBackingStore");
        try {
            offsetLog.stop();
        } finally {
            if (ownTopicAdmin != null) {
                ownTopicAdmin.close();
            }
        }
        log.info("Stopped KafkaOffsetBackingStore");
    }

    private HashMap<ByteBuffer, ByteBuffer> data;
    
    @Override
    public Future<Map<ByteBuffer, ByteBuffer>> get(final Collection<ByteBuffer> keys) {
        // 这里是创建KafkaBaseLog返回时的回调方法
        ConvertingFutureCallback<Void, Map<ByteBuffer, ByteBuffer>> future = new ConvertingFutureCallback<Void, Map<ByteBuffer, ByteBuffer>>() {
            @Override
            public Map<ByteBuffer, ByteBuffer> convert(Void result) {
                Map<ByteBuffer, ByteBuffer> values = new HashMap<>();
                for (ByteBuffer key : keys)
                    values.put(key, data.get(key));
                return values;
            }
        };
        // 这里注释提到，KafkaOffsetBackingStore本身一旦connector比较多的情况下
        // offset.topic可能会存在比较多的offset消息,compact的清理策略本身不会实
        // 时发生,所以这里的从头读到尾时一个比较耗时的操作,只应该调用在connect
        // 刚开始启动的时候
        offsetLog.readToEnd(future);
        return future;
    }

    @Override
    public Future<Void> set(final Map<ByteBuffer, ByteBuffer> values, final Callback<Void> callback) {
        SetCallbackFuture producerCallback = new SetCallbackFuture(values.size(), callback);

        for (Map.Entry<ByteBuffer, ByteBuffer> entry : values.entrySet()) {
            ByteBuffer key = entry.getKey();
            ByteBuffer value = entry.getValue();
            offsetLog.send(key == null ? null : key.array(), value == null ? null : value.array(), producerCallback);
        }

        return producerCallback;
    }

KafkaOffsetBackingStore核心使用了KafkaBaseLog该类，下面来看下该类相关操作。

2、KafkaBaseLog

KafkaBaseLog提供了一个通用的基于Kafka的分布式日志存储。该存储支持共享和压缩。这个类在后台线程中运行一个消费者来持续跟踪目标主题，同时提供一个生产者用于发送offset、config等不同数据类型的消息到Kafka中。（除了上面提到的offset存储实现KafkaOffsetBackingStore，connect内部还有同样基于KafkaBaseLog的status实现KafkaStatusBackingStore，以及config的实现KafkaConfigBackingStore）

先来看KafkaBaseLog.start方法。

    public void start() {
        log.info("Starting KafkaBasedLog with topic " + topic);

        // Create the topic admin client and initialize the topic ...
        // TopicAdmin,用于创建指定的topic
        admin = topicAdminSupplier.get();   // may be null
        initializer.accept(admin);

        // 创建KafkaBaeLog的producer和consumer
        // 关于producer,需要保证以下两点:
        // 1、默认下需要保证所有replication都ack后才返回,所以ACKS_CONFIG=all;
        // 2、为了避免消息发送乱序（网络问题）,MAX_IN_FLIGHT_REQUESTS_PER_CONNECTION=1;
        // 关于消费者创建,需要保证如下:
        // 1、需要保证每次启动时从头开始消费,所以AUTO_OFFSET_RESET_CONFIG=earliest;
        // 2、禁止自动提交commit,ENABLE_AUTO_COMMIT_CONFIG=false
        producer = createProducer();
        consumer = createConsumer();

        List<TopicPartition> partitions = new ArrayList<>();

        // 获取当前KafkaBaseLog指定的topic下的所有分区
        List<PartitionInfo> partitionInfos = consumer.partitionsFor(topic);
        long started = time.nanoseconds();
        long sleepMs = 100;
        while (partitionInfos == null && time.nanoseconds() - started < CREATE_TOPIC_TIMEOUT_NS) {
            time.sleep(sleepMs);
            sleepMs = Math.min(2 * sleepMs, MAX_SLEEP_MS);
            partitionInfos = consumer.partitionsFor(topic);
        }
        if (partitionInfos == null)
            throw new ConnectException("Could not look up partition metadata for offset backing store topic in" +
                    " allotted period. This could indicate a connectivity issue, unavailable topic partitions, or if" +
                    " this is your first use of the topic it may have taken too long to create.");

        for (PartitionInfo partition : partitionInfos)
            partitions.add(new TopicPartition(partition.topic(), partition.partition()));
        partitionCount = partitions.size();
        // 将所有的分区都交给consumer去消费,这样如果每个connect都是采用kafka分布式存储的话  
        // 那么不同的connect都有各自的KafkaBaseLog,相当于每个connect都会拿到同一份topic上的消息
        consumer.assign(partitions);

        // 消费者指定offset为topic的开始
        consumer.seekToBeginning(partitions);

        // 调用方法从头读到尾
        readToLogEnd(true);

        // 启动一个线程去实时消费topic中的数据
        thread = new WorkThread();
        thread.start();

        log.info("Finished reading KafkaBasedLog for topic " + topic);

        log.info("Started KafkaBasedLog for topic " + topic);
    }

readToLogEnd可以说时KafkaBaseLog最关键的方法，用于从队列中获取全部的消息。

    private void readToLogEnd(boolean shouldRetry) {
        // 获取consumer中所有的分区
        Set<TopicPartition> assignment = consumer.assignment();
        // 获取consumer分配的分区当前最大的offset
        Map<TopicPartition, Long> endOffsets = readEndOffsets(assignment, shouldRetry);
        log.trace("Reading to end of log offsets {}", endOffsets);

        while (!endOffsets.isEmpty()) {
            Iterator<Map.Entry<TopicPartition, Long>> it = endOffsets.entrySet().iterator();
            while (it.hasNext()) {
                Map.Entry<TopicPartition, Long> entry = it.next();
                TopicPartition topicPartition = entry.getKey();
                long endOffset = entry.getValue();
                // 获取consumer关于当前分区的最大消费位点
                long lastConsumedOffset = consumer.position(topicPartition);
                // 如果消费者关于当前分区的offset等于或大于（两个offset获取有时差，可能有新数据导致）分区本身的最大offset
                // 则说明已经消费者已经读取了topic上的全部数据，无需重复读取 
                if (lastConsumedOffset >= endOffset) {
                    log.trace("Read to end offset {} for {}", endOffset, topicPartition);
                    it.remove();
                } else {
                    // 需要一直读取topic上的数据
                    log.trace("Behind end offset {} for {}; last-read offset is {}",
                            endOffset, topicPartition, lastConsumedOffset);
                    poll(Integer.MAX_VALUE);
                    break;
                }
            }
        }
    }

    // poll方法由消费者持续读取topic上的数据,并调用consumerCallback回调
    private void poll(long timeoutMs) {
        try {
            ConsumerRecords<K, V> records = consumer.poll(Duration.ofMillis(timeoutMs));
            for (ConsumerRecord<K, V> record : records)
                consumedCallback.onCompletion(null, record);
        } catch (WakeupException e) {
            // Expected on get() or stop(). The calling code should handle this
            throw e;
        } catch (KafkaException e) {
            log.error("Error polling: " + e);
        }
    }

至于这里对于消费消息的callback，则可以由外部去定义，例如在KafkaOffsetBackingStore中，则是每消费数据则修改内部的data对象。

    private final Callback<ConsumerRecord<byte[], byte[]>> consumedCallback = new Callback<ConsumerRecord<byte[], byte[]>>() {
        @Override
        public void onCompletion(Throwable error, ConsumerRecord<byte[], byte[]> record) {
            ByteBuffer key = record.key() != null ? ByteBuffer.wrap(record.key()) : null;
            ByteBuffer value = record.value() != null ? ByteBuffer.wrap(record.value()) : null;
            // 每消费一条数据则写入内部的Map中,因此消息中同样的key只会保留最新的一份
            data.put(key, value);
        }
    };

KafkaBaseLog除了会在启动的时候去消费topic中的数据，还会起一个线程去实时消费，达到类似追踪的效果

    private class WorkThread extends Thread {
        public WorkThread() {
            super("KafkaBasedLog Work Thread - " + topic);
        }

        @Override
        public void run() {
            try {
                while (true) {
                    int numCallbacks;
                    synchronized (KafkaBasedLog.this) {
                        if (stopRequested)
                            break;
                        numCallbacks = readLogEndOffsetCallbacks.size();
                    }

                    // 如果callback为空,就是没有回调，也不用再轮询了。
                    if (numCallbacks > 0) {
                        try {
                            // 读取topic中的数据
                            readToLogEnd(false);
                        } catch (TimeoutException e) {
                            continue;
                        } catch (RetriableException | org.apache.kafka.connect.errors.RetriableException e) {
                            continue;
                        } catch (WakeupException e) {
                            continue;
                        }
                    }

                    synchronized (KafkaBasedLog.this) {
                        for (int i = 0; i < numCallbacks; i++) {
                            Callback<Void> cb = readLogEndOffsetCallbacks.poll();
                            cb.onCompletion(null, null);
                        }
                    }

                    try {
                        poll(Integer.MAX_VALUE);
                    } catch (WakeupException e) {
                        continue;
                    }
                }
            } catch (Throwable t) {
                log.error("Unexpected exception in {}", this, t);
            }
        }
    }

这样在KafkaConnect中，就可以根据connector提供key拿到对应的offset信息。

最后再来看下KafkaBaseLog发送消息的逻辑

    public void send(K key, V value) {
        send(key, value, null);
    }

    public void send(K key, V value, org.apache.kafka.clients.producer.Callback callback) {
        producer.send(new ProducerRecord<>(topic, key, value), callback);
    }

可以看到KafkaBaseLog本身只负责消息的发送和接受，并不处理key、value的序列化和反序列化，相关序列化部分由外部的调用方去实现。