Debezium:Spark Structured Streaming将Kafka的数据写入ElasticSearch

TracyGao01

已于 2023-01-03 12:24:53 修改

阅读量2.3k

点赞数 2

分类专栏： Debezium spark elasticsearch Debezium 文章标签： elasticsearch spark StructuredStreaming kafka debezium

于 2018-12-28 19:27:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012551524/article/details/85330304

版权

spark 同时被 3 个专栏收录

21 篇文章 2 订阅

订阅专栏

9 篇文章 2 订阅

订阅专栏

8 篇文章 2 订阅

订阅专栏

前言：

1、数据流

Mysql -> Debezium -> Kafka -> Structured Streaming -> ElasticSearch

2、Mysql -> Debezium -> Kafka 参考

Debezium:mysql connector使用_TracyGao01的博客-CSDN博客_could not initialize class io.debezium.connector.m

3、ES／Spark参考

Apache Spark support | Elasticsearch for Apache Hadoop [8.5] | Elastic （ES／Spark）

Structured Streaming Programming Guide - Spark 3.3.1 Documentation (Spark Structured Streaming)

import org.apache.spark.sql.SparkSession

import org.elasticsearch.hadoop.cfg.ConfigurationOptions

import org.apache.spark.sql.types._

import org.apache.spark.sql.functions._

object StructedSteamingEsSink {

def main(args: Array[String]): Unit = {

val ss = SparkSession.builder()

.config(ConfigurationOptions.ES_NODES, "xx.xx.xx.xx")

.config(ConfigurationOptions.ES_PORT, "9200")

.appName("StructedStreamingEsSink")

.master("local")

.getOrCreate()

//SparkSql:Debezium输出json解析

val schema = new StructType()

.add("schema",new StructType()

.add("type",StringType)

.add("fields",ArrayType(new StructType()

.add("type",StringType)

.add("fields",ArrayType(new StructType()

.add("type",StringType)

.add("optional",BooleanType)

.add("field",StringType)))

.add("optional",BooleanType)

.add("name",StringType)

.add("field",StringType))

)

.add("optional",StringType)

.add("name",StringType))

.add("payload",new StructType()

.add("before",new StructType()

.add("ID",IntegerType)

.add("NAME",StringType))

.add("after",new StructType()

.add("ID",IntegerType)

.add("NAME",StringType))

.add("source",new StructType()

.add("version",StringType)

.add("name",StringType)

.add("server_id",StringType)

.add("server_id",LongType)

.add("ts_sec",TimestampType)

.add("gtid",LongType)

.add("file",StringType)

.add("pos",IntegerType)

.add("row",IntegerType)

.add("snapshot",BooleanType)

.add("thread",IntegerType)

.add("db",StringType)

.add("table",StringType)

.add("query",StringType))

.add("op",StringType)

.add("ts_ms",TimestampType))

val nestTimestampFormat = "yyyy-MM-dd'T'HH:mm:ss.sss'Z'"

val jsonOptions = Map("timestampFormat" -> nestTimestampFormat)

//读kafka接收到来自于Debezium的json数据

val df = ss.readStream.format("kafka").

option("subscribe","debezium.debezium.test")

.option("kafka.bootstrap.servers","BigData-Dev-5:9092,BigData-Dev-4:9092,BigData-Dev-3:9092,BigData-Dev-2:9092")

.option("startingOffsets","earliest").load().select(from_json(col("value").cast("string"), schema, jsonOptions).alias("test_table"))

import ss.implicits._

val name = df.select($"test_table.payload.after.id",$"test_table.payload.after.name")

//写入ES

val esOptions = Map(

"es.write.operation" -> "upsert"

,"es.mapping.id" -> "id")

//指定参数根据指定ID更新写入ES

name.writeStream.options(esOptions)

.format("org.elasticsearch.spark.sql")

.option("checkpointLocation","hdfs://zt01/tmp/kafka")

.start("test/m_retail").awaitTermination()

//直接写入ES

// name.writeStream.outputMode("append")

// .format("org.elasticsearch.spark.sql")

// .option("checkpointLocation","hdfs://zt01/tmp/kafka")

// .start("test/m_retail").awaitTermination()

//控制台测试

// name.writeStream.outputMode("append")

// .format("console").option("checkpointLocation","hdfs://zt01/tmp/kafka").start().awaitTermination()

}

}

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

TracyGao01

CSDN认证博客专家 CSDN认证企业博客

码龄11年

220: 原创

1万+: 周排名

216万+: 总排名

72万+: 访问

: 等级

7893: 积分

322: 粉丝

145: 获赞

216: 评论

592: 收藏

私信

关注

热门文章

分类专栏

最新评论

phoenix error: Unable to find cached index metadata
G3-平头哥: 并没有啥用
ClickHouse入门：表引擎-AggregatingMergeTree
小鹿在线自学编程: 应该是普通的MergeTree就好了吧？
ClickHouse入门：表引擎-AggregatingMergeTree
小鹿在线自学编程: create table test_table ( shop_code String, product_code String, name String, out_count Int, write_date DateTime ) ENGINE = AggregatingMergeTree() PARTITION BY toYYYYMM(write_date) ORDER BY (shop_code,product_code); 这写错了吧？基础表用AggregateMerge Tree?
Hue:Trino配置
如果能重来666: 我也报这个解决了嘛
ClickHouse入门：表引擎-VersionedCollapsingMergeTree
ldh_loky: 博主你好，标识数据状态的sign列的列值，一定需要手动赋值插入吗？那这样的话，插入前不是需要预先知道库内是否有历史数据？那这个引擎用起来不是很局限吗？引擎本身不可以自动判断哪些数据是过期旧版本的吗？

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。