【无标题】

孙靖豪

于 2023-06-12 22:26:04 发布

阅读量30

点赞数

文章标签： kafka elasticsearch java

本文链接：https://blog.csdn.net/m0_62793984/article/details/131178131

版权

好的，下面是一个使用 Flink 消费 Avro 格式的 Kafka 数据，并将获得的数据 id 加 1 存储到 Elasticsearch 中的示例代码：

import org.apache.avro.Schema;
import org.apache.avro.generic.GenericRecord;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.serialization.AbstractKafkaAvroSerDeSchema;
import org.apache.flink.api.common.serialization.DeserializationSchema;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.api.common.typeinfo.TypeInformation;
import org.apache.flink.api.java.typeutils.TypeExtractor;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.elasticsearch.ElasticsearchSink;
import org.apache.flink.streaming.connectors.elasticsearch.ElasticsearchSinkFunction;
import org.apache.flink.streaming.connectors.elasticsearch6.ElasticsearchSinkBuilder;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
import org.apache.flink.streaming.util.serialization.JSONKeyValueDeserializationSchema;
import org.apache.http.HttpHost;
import org.elasticsearch.action.index.IndexRequest;
import org.elasticsearch.client.Requests;
import org.elasticsearch.common.xcontent.XContentType;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.util.ArrayList;
import java.util.List;
import java.util.Properties;

public class FlinkAvroKafkaConsumer {

    private static final Logger LOG = LoggerFactory.getLogger(FlinkAvroKafkaConsumer.class);

    private static final String KAFKA_TOPIC = "kafka-topic";
    private static final String KAFKA_BROKERS = "localhost:9092";
    private static final String AVRO_SCHEMA_STRING = "{\"namespace\": \"example.avro\",\n" +
            " \"type\": \"record\",\n" +
            " \"name\": \"User\",\n" +
            " \"fields\": [\n" +
            "     {\"name\": \"id\", \"type\": \"int\"},\n" +
            "     {\"name\": \"name\", \"type\": \"string\"}\n" +
            " ]\n" +
            "}";

    public static void main(String[] args) throws Exception {
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 设置 Kafka 消费者配置
        Properties kafkaProps = new Properties();
        kafkaProps.setProperty("bootstrap.servers", KAFKA_BROKERS);
        kafkaProps.setProperty("group.id", "flink-consumer-group");

        // 创建 Flink Kafka 消费者
        FlinkKafkaConsumer<GenericRecord> kafkaConsumer = new FlinkKafkaConsumer<>(KAFKA_TOPIC, new AvroDeserializationSchema(AVRO_SCHEMA_STRING), kafkaProps);

        // 将 Kafka 消息转换为 Elasticsearch 索引请求
        ElasticsearchSinkFunction<GenericRecord> esSinkFunction = new ElasticsearchSinkFunction<GenericRecord>() {
            @Override
            public void process(GenericRecord record, RuntimeContext ctx, RequestIndexer indexer) {
                int id = (int) record.get("id");
                record.put("id", id + 1);
                IndexRequest indexRequest = Requests.indexRequest("es-index").source(record.toString(), XContentType.JSON);
                indexer.add(indexRequest);
            }
        };

        // 配置 Elasticsearch 连接选项
        List<HttpHost> httpHosts = new ArrayList<>();
        httpHosts.add(new HttpHost("localhost", 9200, "http"));
        ElasticsearchSink.Builder<GenericRecord> esSinkBuilder = new ElasticsearchSink.Builder<>(httpHosts, esSinkFunction);

        // 添加 ElasticsearchSink 到 Flink 程序中
        env.addSource(kafkaConsumer)
                .map(new MapFunction<GenericRecord, GenericRecord>() {
                    @Override
                    public GenericRecord map(GenericRecord record) throws Exception {
                        int id = (int) record.get("id");
                        record.put("id", id + 1);
                        return record;
                    }
                })
                .addSink(esSinkBuilder.build());

        env.execute("Flink Kafka Avro Consumer");
    }

    public static class AvroDeserializationSchema implements DeserializationSchema<GenericRecord> {

        private final String schemaString;

        public AvroDeserializationSchema(String schemaString) {
            this.schemaString = schemaString;
        }

        @Override
        public GenericRecord deserialize(byte[] bytes) {
            AbstractKafkaAvroSerDeSchema<GenericRecord> avroSchema = new AbstractKafkaAvroSerDeSchema<GenericRecord>() {
                @Override
                public TypeInformation<GenericRecord> getProducedType() {
                    Schema schema = new Schema.Parser().parse(schemaString);
                    return TypeExtractor.getForClass(GenericRecord.class);
                }
            };
            return avroSchema.deserialize(bytes);
        }

        @Override
        public boolean isEndOfStream(GenericRecord nextElement) {
            return false;
        }

        @Override
        public TypeInformation<GenericRecord> getProducedType() {
            Schema schema = new Schema.Parser().parse(schemaString);
            return TypeExtractor.getForClass(GenericRecord.class);
        }
    }
}

在上面的代码中，我们使用 FlinkKafkaConsumer 类来消费 Avro 格式的 Kafka 数据。在 main 方法中，我们创建了一个新的 Avro 消息反序列化器 AvroDeserializationSchema，它接受一个 Avro Schema 字符串作为参数，并在 deserialize 方法中将字节数组类型的 Kafka 消息反序列化为 Avro 对象。

在将 Kafka 数据转换为 Elasticsearch 索引请求之前，我们使用 map 方法将 Avro 对象中的 id 字段加 1。然后，我们使用 ElasticsearchSinkFunction 接口实现了一个 Elasticsearch 索引函数 esSinkFunction，它接受一个 Avro 对象作为参数，并将其转换为 Elasticsearch 索引请求。

最后，我们配置了 Elasticsearch 连接选项，并使用 ElasticsearchSink.Builder 类创建了一个 ElasticsearchSink。然后，我们使用 addSink 方法将 ElasticsearchSink 添加到 Flink 程序中。

需要注意的是，在使用 Avro 格式的 Kafka 数据时，我们需要确保 Avro Schema 在 Kafka 生产者和消费者之间是一致的。如果 Avro Schema 发生了变化，可能会导致生产者无法将数据序列化为正确的格式，或者消费者无法正确地反序列化数据。因此，我们需要使用一个 Avro Schema Registry 来管理 Avro Schema 的演化和版本控制。

孙靖豪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【无标题】

需要注意的是，在使用 Avro 格式的 Kafka 数据时，我们需要确保 Avro Schema 在 Kafka 生产者和消费者之间是一致的。如果 Avro Schema 发生了变化，可能会导致生产者无法将数据序列化为正确的格式，或者消费者无法正确地反序列化数据。因此，我们需要使用一个 Avro Schema Registry 来管理 Avro Schema 的演化和版本控制。，它接受一个 Avro 对象作为参数，并将其转换为 Elasticsearch 索引请求。在上面的代码中，我们使用。
复制链接

扫一扫