Flink的sink实战之三:cassandra3(1)

《一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码》点击传送门,即可获取!

准备kafka的topic

  1. 启动kafka服务;

  2. 创建名为test001的topic,参考命令如下:

./kafka-topics.sh \

–create \

–bootstrap-server 127.0.0.1:9092 \

–replication-factor 1 \

–partitions 1 \

–topic test001

  1. 进入发送消息的会话模式,参考命令如下:

./kafka-console-producer.sh \

–broker-list kafka:9092 \

–topic test001

  1. 在会话模式下,输入任意字符串然后回车,都会将字符串消息发送到broker;

源码下载

如果您不想写代码,整个系列的源码可在GitHub下载到,地址和链接信息如下表所示(https://github.com/zq2599/blog_demos):

| 名称 | 链接 | 备注 |

| :-- | :-- | :-- |

| 项目主页 | https://github.com/zq2599/blog_demos | 该项目在GitHub上的主页 |

| git仓库地址(https) | https://github.com/zq2599/blog_demos.git | 该项目源码的仓库地址,https协议 |

| git仓库地址(ssh) | git@github.com:zq2599/blog_demos.git | 该项目源码的仓库地址,ssh协议 |

这个git项目中有多个文件夹,本章的应用在flinksinkdemo文件夹下,如下图红框所示:

在这里插入图片描述

两种写入cassandra的方式

flink官方的connector支持两种方式写入cassandra:

  1. Tuple类型写入:将Tuple对象的字段对齐到指定的SQL的参数中;

  2. POJO类型写入:通过DataStax,将POJO对象对应到注解配置的表和字段中;

接下来分别使用这两种方式;

开发(Tuple写入)

  1. 《Flink的sink实战之二:kafka》中创建了flinksinkdemo工程,在此继续使用;

  2. 在pom.xml中增加casandra的connector依赖:

org.apache.flink

flink-connector-cassandra_2.11

1.10.0

  1. 另外还要添加flink-streaming-scala依赖,否则编译CassandraSink.addSink这段代码会失败:

org.apache.flink

flink-streaming-scala_${scala.binary.version}

${flink.version}

provided

  1. 新增CassandraTuple2Sink.java,这就是Job类,里面从kafka获取字符串消息,然后转成Tuple2类型的数据集写入cassandra,写入的关键点是Tuple内容和指定SQL中的参数的匹配:

package com.bolingcavalry.addsink;

import org.apache.flink.api.common.functions.FlatMapFunction;

import org.apache.flink.api.common.serialization.SimpleStringSchema;

import org.apache.flink.api.java.tuple.Tuple2;

import org.apache.flink.streaming.api.datastream.DataStream;

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

import org.apache.flink.streaming.api.functions.sink.PrintSinkFunction;

import org.apache.flink.streaming.api.windowing.time.Time;

import org.apache.flink.streaming.connectors.cassandra.CassandraSink;

import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;

import org.apache.flink.util.Collector;

import java.util.Properties;

public class CassandraTuple2Sink {

public static void main(String[] args) throws Exception {

final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

//设置并行度

env.setParallelism(1);

//连接kafka用到的属性对象

Properties properties = new Properties();

//broker地址

properties.setProperty(“bootstrap.servers”, “192.168.50.43:9092”);

//zookeeper地址

properties.setProperty(“zookeeper.connect”, “192.168.50.43:2181”);

//消费者的groupId

properties.setProperty(“group.id”, “flink-connector”);

//实例化Consumer类

FlinkKafkaConsumer flinkKafkaConsumer = new FlinkKafkaConsumer<>(

“test001”,

new SimpleStringSchema(),

properties

);

//指定从最新位置开始消费,相当于放弃历史消息

flinkKafkaConsumer.setStartFromLatest();

//通过addSource方法得到DataSource

DataStream dataStream = env.addSource(flinkKafkaConsumer);

DataStream<Tuple2<String, Long>> result = dataStream

.flatMap(new FlatMapFunction<String, Tuple2<String, Long>>() {

@Override

public void flatMap(String value, Collector<Tuple2<String, Long>> out) {

String[] words = value.toLowerCase().split(“\s”);

for (String word : words) {

//cassandra的表中,每个word都是主键,因此不能为空

if (!word.isEmpty()) {

out.collect(new Tuple2<String, Long>(word, 1L));

}

}

}

}

)

.keyBy(0)

.timeWindow(Time.seconds(5))

.sum(1);

result.addSink(new PrintSinkFunction<>())

.name(“print Sink”)

.disableChaining();

CassandraSink.addSink(result)

.setQuery(“INSERT INTO example.wordcount(word, count) values (?, ?);”)

.setHost(“192.168.133.168”)

.build()

.name(“cassandra Sink”)

.disableChaining();

env.execute(“kafka-2.4 source, cassandra-3.11.6 sink, tuple2”);

}

}

  1. 上述代码中,从kafka取得数据,做了word count处理后写入到cassandra,注意addSink方法后的一连串API(包含了数据库连接的参数),这是flink官方推荐的操作,另外为了在Flink web UI看清楚DAG情况,这里调用disableChaining方法取消了operator chain,生产环境中这一行可以去掉;

  2. 编码完成后,执行mvn clean package -U -DskipTests构建,在target目录得到文件flinksinkdemo-1.0-SNAPSHOT.jar;

  3. 在Flink的web UI上传flinksinkdemo-1.0-SNAPSHOT.jar,并指定执行类,如下图红框所示:

在这里插入图片描述

  1. 启动任务后DAG如下:

在这里插入图片描述

  1. 去前面创建的发送kafka消息的会话模式窗口,发送一个字符串"aaa bbb ccc aaa aaa aaa";

  2. 查看cassandra数据,发现已经新增了三条记录,内容符合预期:

在这里插入图片描述

  1. 查看TaskManager控制台输出,里面有Tuple2数据集的打印结果,和cassandra的一致:

在这里插入图片描述

  1. DAG上所有SubTask的记录数也符合预期:

在这里插入图片描述

开发(POJO写入)

接下来尝试POJO写入,即业务逻辑中的数据结构实例被写入cassandra,无需指定SQL:

  1. 实现POJO写入数据库,需要datastax库的支持,在pom.xml中增加以下依赖:

com.datastax.cassandra

cassandra-driver-core

3.1.4

shaded

io.netty

*

  1. 请注意上面配置的exclusions节点,依赖datastax的时候,按照官方指导对netty相关的间接依赖做排除,官方地址:https://docs.datastax.com/en/developer/java-driver/3.1/manual/shaded_jar/

  2. 创建带有数据库相关注解的实体类WordCount:

package com.bolingcavalry.addsink;

import com.datastax.driver.mapping.annotations.Column;

import com.datastax.driver.mapping.annotations.Table;

@Table(keyspace = “example”, name = “wordcount”)

public class WordCount {

@Column(name = “word”)

private String word = “”;

@Column(name = “count”)

private long count = 0;

public WordCount() {

}

public WordCount(String word, long count) {

this.setWord(word);

this.setCount(count);

}

public String getWord() {

return word;

}

public void setWord(String word) {

this.word = word;

}

public long getCount() {

return count;

}

public void setCount(long count) {

this.count = count;

}

@Override

public String toString() {

return getWord() + " : " + getCount();

}

}

  1. 然后创建任务类CassandraPojoSink:

package com.bolingcavalry.addsink;

import com.datastax.driver.mapping.Mapper;

import com.datastax.shaded.netty.util.Recycler;

import org.apache.flink.api.common.functions.FlatMapFunction;

import org.apache.flink.api.common.functions.ReduceFunction;

import org.apache.flink.api.common.serialization.SimpleStringSchema;

import org.apache.flink.api.java.tuple.Tuple2;

import org.apache.flink.streaming.api.datastream.DataStream;

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

import org.apache.flink.streaming.api.functions.sink.PrintSinkFunction;

import org.apache.flink.streaming.api.windowing.time.Time;

import org.apache.flink.streaming.connectors.cassandra.CassandraSink;

import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;

import org.apache.flink.util.Collector;

import java.util.Properties;

public class CassandraPojoSink {

public static void main(String[] args) throws Exception {

final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

//设置并行度

env.setParallelism(1);

独家面经总结,超级精彩

本人面试腾讯,阿里,百度等企业总结下来的面试经历,都是真实的,分享给大家!

image

image

image

image

Java面试准备

准确的说这里又分为两部分:

  1. Java刷题
  2. 算法刷题

Java刷题:此份文档详细记录了千道面试题与详解;

image

image

《一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码》点击传送门,即可获取!
cutionEnvironment();

//设置并行度

env.setParallelism(1);

独家面经总结,超级精彩

本人面试腾讯,阿里,百度等企业总结下来的面试经历,都是真实的,分享给大家!

[外链图片转存中…(img-ktBVghr0-1714477170208)]

[外链图片转存中…(img-WsY87AWT-1714477170209)]

[外链图片转存中…(img-O5YqQBdy-1714477170209)]

[外链图片转存中…(img-s22wAxOb-1714477170209)]

Java面试准备

准确的说这里又分为两部分:

  1. Java刷题
  2. 算法刷题

Java刷题:此份文档详细记录了千道面试题与详解;

[外链图片转存中…(img-D9dsWJ0W-1714477170210)]

[外链图片转存中…(img-BTGeHGiT-1714477170210)]

《一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码》点击传送门,即可获取!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值