Flink使用DataStreamAPI消费Kafka

首先给出DataStreamAPI消费kafka的函数

下面重点描述下

  • kafka起始读取位置选择

  • 待补充

public static KafkaSource<String> getKafkaSource(String topic, String groupId, String[] args) {
    ParameterTool parameterTool = ParameterTool.fromArgs(args);
    String bootstrapServers = parameterTool.get("bootstrap", KAFKA_SERVER);

    topic = parameterTool.get("topic", topic);
    if (topic == null) {
        throw new IllegalArgumentException("主题名不可为空:命令行传参为空且没有默认值!");
    }

    KafkaSource<String> source = KafkaSource.<String>builder()
            .setBootstrapServers(bootstrapServers)
            .setTopics(topic)
            .setGroupId(groupId)
            // 
            .setStartingOffsets(OffsetsInitializer.committedOffsets(OffsetResetStrategy.LATEST))
            // /注意:使用SimpleStringSchema进行反序列化,如果读到的消息为空,处理不了,需要自定义返序列化类
            .setValueOnlyDeserializer(new DeserializationSchema<String>() {
                @Override
                public String deserialize(byte[] message) throws IOException {
                    if (message != null) {
                        return new String(message);
                    }
                    return null;
                }

                @Override
                public boolean isEndOfStream(String nextElement) {
                    return false;
                }

                @Override
                public TypeInformation<String> getProducedType() {
                    return TypeInformation.of(String.class);
                }
            })
            .build();

    return source;
}
  1. StartingOffsets

  2. 最早偏移量(Earliest)

如果未找到偏移量或偏移量超出了有效范围,则从最早(最小)偏移量开始消费。

  KafkaSource<String> source = KafkaSource.<String>builder()
        .setBootstrapServers("kafka:9092")
        .setTopics("topic")
        .setValueOnlyDeserializer(new SimpleStringSchema())
        .setStartingOffsets(OffsetsInitializer.earliest())
        .build();

最新偏移量(Latest)

如果未找到偏移量或偏移量超出了有效范围,则从最新(最大)偏移量开始消费。例如:

    KafkaSource<String> source = KafkaSource.<String>builder()
        .setBootstrapServers("kafka:9092")
        .setTopics("topic")
        .setValueOnlyDeserializer(new SimpleStringSchema())
        .setStartingOffsets(OffsetsInitializer.latest())
        .build();

已提交的偏移(Committed)

如果消费者组中的所有分区都找到了已提交的偏移量,那么将从这些位置开始消费。如果任一分区没有找到已提交的偏移量,那么将根据 OffsetResetStrategy 参数(可以是 earliestlatest)来确定开始消费的位置

    KafkaSource<String> source = KafkaSource.<String>builder()
        .setBootstrapServers("kafka:9092")
        .setTopics("topic")
        .setValueOnlyDeserializer(new SimpleStringSchema())
        .setStartingOffsets(OffsetsInitializer.committedOffsets(OffsetResetStrategy.LATEST))
        .build();

自定义偏移量(Specific Offsets)

你还可以为每个主题分区指定一个偏移量,以这些偏移量为起点开始消费:

    Map<TopicPartition, Long> specificStartOffsets = new HashMap<>();
    specificStartOffsets.put(new TopicPartition("myTopic", 0), 23L);
    KafkaSource<String> source = KafkaSource.<String>builder()
        .setBootstrapServers("kafka:9092")
        .setTopics("topic")
        .setValueOnlyDeserializer(new SimpleStringSchema())
        .setStartingOffsets(OffsetsInitializer.partitions(specificStartOffsets))
        .build();

自定义时间戳(Timestamp)

你可以指定一个时间戳,以这个时间戳之后的消息为起点开始消费:

    KafkaSource<String> source = KafkaSource.<String>builder()
        .setBootstrapServers("kafka:9092")
        .setTopics("topic")
        .setValueOnlyDeserializer(new SimpleStringSchema())
        .setStartingOffsets(OffsetsInitializer.timestamps(...))
        .build();

  • 10
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,我可以尝试回答你的问题。 要编写 Flink 程序消费 Kafka,您需要采用以下步骤: 1. 创建一个 Flink 流式处理作业,并配置适当的读取器和数据源。 2. 定义一个 Kafka 消费者,并配置适当的消费者参数。您可以使用 Flink 提供的 KafkaConsumer 类来实现这一步骤。 3. 编写处理逻辑,对消费的数据进行相应的转换和操作。您可以使用 Flink 提供的函数和算子来实现这一步骤。 4. 将处理后的数据发送到下游,可以是另一个 Kafka 主题,也可以是一个数据库或其他外部系统。 以下是一个示例代码,可以作为您编写 Flink 程序消费 Kafka 的起点: ``` import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer010; import org.apache.flink.streaming.util.serialization.SimpleStringSchema; import org.apache.kafka.clients.consumer.KafkaConsumer; import java.util.Properties; public class KafkaConsumerFlink { public static void main(String[] args) throws Exception { // 设置执行环境 final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 定义 Kafka 消费者配置 Properties properties = new Properties(); properties.setProperty("bootstrap.servers", "localhost:9092"); properties.setProperty("group.id", "test-group"); // 创建 Kafka 消费FlinkKafkaConsumer010<String> consumer = new FlinkKafkaConsumer010<>("test-topic", new SimpleStringSchema(), properties); // 将 Kafka 流绑定到 Flink 环境 env.addSource(consumer) .map(String::toUpperCase) // 将字符串转换为大写 .print(); // 打印处理结果 // 执行 Flink 程序 env.execute("Kafka Consumer Flink"); } } ``` 在这个示例中,我们使用 Flink 提供的 KafkaConsumer 类来创建一个消费者,并配置相关参数。随后,我们使用 addSource 方法将 Kafka 流绑定到 Flink 环境,并通过 map 算子将所有收到的字符串转换为大写。最后,我们使用 print 方法将处理结果打印出来。在执行环境中,我们使用 execute 方法启动 Flink 任务。 请注意,此示例代码只是一个示例,您需要根据您的实际需求进行适当的修改。在实际使用中,您还需要考虑如何进行故障处理、如何使用 Flink 的状态管理机制、如何进行批量处理等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值