Flink的sink实战之二：kafka

2401_84815189

于 2024-05-10 10:20:33 发布

阅读量986

点赞数 23

分类专栏：程序员文章标签： flink kafka 大数据

本文链接：https://blog.csdn.net/2401_84815189/article/details/138653985

版权

程序员专栏收录该内容

115 篇文章 0 订阅

订阅专栏

| git仓库地址(ssh) | git@github.com:zq2599/blog_demos.git | 该项目源码的仓库地址，ssh协议 |

这个git项目中有多个文件夹，本章的应用在flinksinkdemo文件夹下，如下图红框所示：

在这里插入图片描述

准备完毕，开始开发；

准备工作

正式编码前，先去官网查看相关资料了解基本情况：

地址：https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/connectors/kafka.html
我这里用的kafka是2.4.0版本，在官方文档查找对应的库和类，如下图红框所示：

在这里插入图片描述

kafka准备

创建名为test006的topic，有四个分区，参考命令：

./kafka-topics.sh \

–create \

–bootstrap-server 127.0.0.1:9092 \

–replication-factor 1 \

–partitions 4 \

–topic test006

在控制台消费test006的消息，参考命令：

./kafka-console-consumer.sh \

–bootstrap-server 127.0.0.1:9092 \

–topic test006

此时如果该topic有消息进来，就会在控制台输出；
接下来开始编码；

创建工程

用maven命令创建flink工程：

mvn \

archetype:generate \

-DarchetypeGroupId=org.apache.flink \

-DarchetypeArtifactId=flink-quickstart-java \

-DarchetypeVersion=1.9.2

根据提示，groupid输入com.bolingcavalry，artifactid输入flinksinkdemo，即可创建一个maven工程；
在pom.xml中增加kafka依赖库：

org.apache.flink

flink-connector-kafka_2.11

1.9.0

工程创建完成，开始编写flink任务的代码；

发送字符串消息的sink

先尝试发送字符串类型的消息：

创建KafkaSerializationSchema接口的实现类，后面这个类要作为创建sink对象的参数使用：

package com.bolingcavalry.addsink;

import org.apache.flink.streaming.connectors.kafka.KafkaSerializationSchema;

import org.apache.kafka.clients.producer.ProducerRecord;

import java.nio.charset.StandardCharsets;

public class ProducerStringSerializationSchema implements KafkaSerializationSchema {

private String topic;

public ProducerStringSerializationSchema(String topic) {

super();

this.topic = topic;

}

@Override

public ProducerRecord<byte[], byte[]> serialize(String element, Long timestamp) {

return new ProducerRecord<byte[], byte[]>(topic, element.getBytes(StandardCharsets.UTF_8));

}

创建任务类KafkaStrSink，请注意FlinkKafkaProducer对象的参数，FlinkKafkaProducer.Semantic.EXACTLY_ONCE表示严格一次：

package com.bolingcavalry.addsink;

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer;

import java.util.ArrayList;

import java.util.List;

import java.util.Properties;

public class KafkaStrSink {

public static void main(String[] args) throws Exception {

final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

//并行度为1

env.setParallelism(1);

Properties properties = new Properties();

properties.setProperty(“bootstrap.servers”, “192.168.50.43:9092”);

String topic = “test006”;

FlinkKafkaProducer producer = new FlinkKafkaProducer<>(topic,

new ProducerStringSerializationSchema(topic),

properties,

FlinkKafkaProducer.Semantic.EXACTLY_ONCE);

//创建一个List，里面有两个Tuple2元素

List list = new ArrayList<>();

list.add(“aaa”);

list.add(“bbb”);

list.add(“ccc”);

list.add(“ddd”);

list.add(“eee”);

list.add(“fff”);

list.add(“aaa”);

//统计每个单词的数量

env.fromCollection(list)

.addSink(producer)

.setParallelism(4);

env.execute(“sink demo : kafka str”);

}

使用mvn命令编译构建，在target目录得到文件flinksinkdemo-1.0-SNAPSHOT.jar；
在flink的web页面提交flinksinkdemo-1.0-SNAPSHOT.jar，并制定执行类，如下图：

在这里插入图片描述

提交成功后，如果flink有四个可用slot，任务会立即执行，会在消费kafak消息的终端收到消息，如下图：

在这里插入图片描述

任务执行情况如下图：

在这里插入图片描述

发送对象消息的sink

再来尝试如何发送对象类型的消息，这里的对象选择常用的Tuple2对象：

创建KafkaSerializationSchema接口的实现类，该类后面要用作sink对象的入参，请注意代码中捕获异常的那段注释：生产环境慎用printStackTrace()!!!

package com.bolingcavalry.addsink;

import org.apache.flink.api.java.tuple.Tuple2;

import org.apache.flink.shaded.jackson2.com.fasterxml.jackson.core.JsonProcessingException;

import org.apache.flink.shaded.jackson2.com.fasterxml.jackson.databind.ObjectMapper;

import org.apache.flink.streaming.connectors.kafka.KafkaSerializationSchema;

import org.apache.kafka.clients.producer.ProducerRecord;

import javax.annotation.Nullable;

public class ObjSerializationSchema implements KafkaSerializationSchema<Tuple2<String, Integer>> {

private String topic;

private ObjectMapper mapper;

public ObjSerializationSchema(String topic) {

super();

this.topic = topic;

}

@Override

public ProducerRecord<byte[], byte[]> serialize(Tuple2<String, Integer> stringIntegerTuple2, @Nullable Long timestamp) {

byte[] b = null;

if (mapper == null) {

mapper = new ObjectMapper();

}

try {

b= mapper.writeValueAsBytes(stringIntegerTuple2);

} catch (JsonProcessingException e) {

// 注意，在生产环境这是个非常危险的操作，

// 过多的错误打印会严重影响系统性能，请根据生产环境情况做调整

e.printStackTrace();

}

return new ProducerRecord<byte[], byte[]>(topic, b);

}

最后

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Java工程师，想要提升技能，往往是自己摸索成长，自己不成体系的自学效果低效漫长且无助。

因此收集整理了一份《2024年Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Java开发知识点，不论你是刚入门Android开发的新手，还是希望在技术上不断提升的资深开发者，这些资料都将为你打开新的学习之门！

如果你觉得这些内容对你有帮助，需要这份全套学习资料的朋友可以戳我获取！！

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且会持续更新！

[外链图片转存中…(img-WxpbUhUZ-1715307620055)]

[外链图片转存中…(img-UHCH2b0s-1715307620056)]

[外链图片转存中…(img-3T11JJVB-1715307620056)]

如果你觉得这些内容对你有帮助，需要这份全套学习资料的朋友可以戳我获取！！

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且会持续更新！

2401_84815189

关注

23
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录