Flink+kafka实时统计本地环境搭建与代码实战

1.搭建zookeeper与kafka本地环境

flink经常用来消费上游kafka的数据,而kafka又依赖zookeeper进行。所以在进行测试之前,先要准备好本地的zookeeper与kafka环境。

关于准备zk与kafka环境,具体可以参考SparkStreaming kafka zookeeper本地环境调试安装

2.添加所需要的依赖

在pom.xml文件中,先添加所需要的依赖。主要包括flink相关的依赖已经kafka相关的依赖,flink版本1.7.2,kafka相关版本0.9。

    <properties>
        <flink.version>1.7.2</flink.version>
    </properties>


    <dependencies>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-java</artifactId>
            <version>${flink.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-streaming-java_2.11</artifactId>
            <version>${flink.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-clients_2.11</artifactId>
            <version>${flink.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-kafka-0.9_2.11</artifactId>
            <version>${flink.version}</version>
        </dependency>
    </dependencies>

主要的

2.kafka producer

通过命令行事先准备了一个名为test的topic,然后实现producer往里面写数据。

在这里插入代码import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.apache.kafka.common.serialization.StringSerializer;

import java.util.Properties;

/**
 * author: wanglei
 * create: 2022-09-21
 */
public class Producer {
    public static void main(String[] args) {
        Properties properties = new Properties();
        properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        properties.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
        properties.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
        KafkaProducer<String, String> producer = new KafkaProducer<String, String>(properties);
        String topic = "test";
        ProducerRecord record = new ProducerRecord(topic, "v1");
        producer.send(record);
        ProducerRecord record2 = new ProducerRecord(topic, "v2");
        producer.send(record2);
        producer.close();
    }
}

稍微需要注意的是,序列化反序列化使用的类型,均为StringSerializer。

3.kafka consumer

先使用kafka client自己的consumer进行简单测试。

import org.apache.kafka.clients.consumer.*;
import org.apache.kafka.common.serialization.StringDeserializer;

import java.util.Arrays;
import java.util.Properties;

/**
 * author: wanglei
 * create: 2022-09-26
 */
public class Consumer {

    public static void main(String[] args) {
        String topic = "test";
        String groupId = "group_leilei";
        Properties props = new Properties();

        props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        props.put(ConsumerConfig.GROUP_ID_CONFIG, groupId);
        props.put("auto.commit.interval.ms", "1000");
        props.put("session.timeout.ms", "30000");
        props.setProperty("enable.auto.commit", "true");//设置为自动提交
        KafkaConsumer<String, String> consumer = new KafkaConsumer<String, String>(props);
        consumer.subscribe(Arrays.asList(topic));

        while(true) {
            ConsumerRecords<String, String> records = consumer.poll(1L);
            for(ConsumerRecord<String, String> record: records) {
                System.out.printf("patition = %d , offset = %d, key = %s, value = %s%n",
                        record.partition(), record.offset(), record.key(), record.value());
            }
        }
    }
}

如果是要想从头开始消费,需要满足两个条件
1.一个新的groupid,之前未曾记录过offset。
2.设置参数auto.offset.reset为earliest。

4.使用flink相关API进行消费测试

下面我们使用flink相关代码进行消费测试。

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer09;
import org.apache.flink.util.Collector;

import java.util.Properties;

/**
 * author: wanglei
 * create: 2022-09-21
 */
public class KafkaCount {


    public static final class LineSplitter implements FlatMapFunction<String, Tuple2<String, Integer>> {

        @Override
        public void flatMap(String value, Collector<Tuple2<String, Integer>> out) throws Exception {
            String[] tokens = value.toLowerCase().split("\\W+");
            for(String token: tokens) {
                if (token.length() > 0) {
                    out.collect(new Tuple2<>(token, 1));
                }
            }
        }
    }

    public static void run() throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        System.out.println("set kafka parameters!");
        Properties props = new Properties();
        String topic = "test";
        props.setProperty("bootstrap.servers", "localhost:9092");
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("group.id", topic);

        FlinkKafkaConsumer09<String> myConsumer = new FlinkKafkaConsumer09<String>(topic, new SimpleStringSchema(), props);
        // 从队列的最起始位置开始消费
        myConsumer.setStartFromEarliest();
        DataStream<String> stream = env.addSource(myConsumer);
        DataStream<Tuple2<String, Integer>> counts = stream.flatMap(new LineSplitter())
                .keyBy(0)
                .sum(1);

        counts.print();
        env.execute("word count from kafka");
    }

    public static void main(String[] args) throws Exception {
        run();
    }
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Flink 1.13.2是一种流处理框架,支持集成CDC(Change Data Capture)功能。 CDC是一种数据库变更捕获技术,用于实时监测和捕获数据库中数据的变化。通过CDC,我们可以对数据库中的新增、更新和删除操作进行实时监控,然后将这些变化数据流传递给流处理引擎进行实时处理和分析。 在Flink 1.13.2中,集成了CDC库,可以通过Flink CDC Connector来实现CDC功能的集成。这个Connector提供了一些API和工具,可以连接到常见的数据库系统,并实时读取数据变化。 使用Flink CDC Connector集成CDC功能的步骤如下: 1. 导入CDC库:首先,需要在项目中导入Flink CDC Connector库。可以通过Maven等方式添加相关依赖项。 2. 配置CDC连接器:接下来,需要配置CDC连接器,包括数据库连接信息、表名、列名等。可以通过配置文件或代码来指定连接器的参数。 3. 创建CDC源:在Flink中,需要创建一个CDC源(CDC Source),用于读取数据库中的数据变化。可以使用Flink CDC Connector提供的API来创建CDC源。 4. 定义处理逻辑:一旦CDC源创建成功,可以定义需要对数据变化进行的实时处理逻辑。比如,可以对新增的数据进行统计分析、对更新的数据进行实时计算等。 5. 启动Flink作业:最后,启动Flink作业,让Flink框架开始读取数据库中的数据变化并进行实时处理。 总结来说,Flink 1.13.2集成CDC功能可以通过使用Flink CDC Connector库来实现。通过配置连接器、创建CDC源和定义处理逻辑,可以实时读取数据库的变化数据,并使用Flink进行实时处理和分析。这样可以帮助我们构建实时的数据处理流程,从而更好地应对数据库中的数据变化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值