使用seatunnel同步Kafka的数据到clickhouse(保姆级)

1.seatunnel依赖地址

        seatunnel依赖地址

2.seatunnel官网的source/sink模板

seatunnel官网的source/sink模板

3.seatunnel的GitHub地址

seatunnel的GitHub地址

一、在官网下载安装包,千万别下载apache-seatunnel-incubating-2.1.0-bin.tar.gz版本,什么依赖和功能都没有。要使用apache-seatunnel-2.3.3-bin.tar.gz,但还需要配置环境和jar包,jar包需要联网

        从2.2.0-beta开始,二进制包默认不提供connectors的依赖,因此在第一次使用它时,需要执行以下命令来安装连接器。当然,您也可以从Apache Maven Repository[https://repo.maven.apache.org/maven2/org/apache/seatunnel/]手动下载连接器,然后手动移动到connectors/seatunnel目录)

sh bin/install-plugin.sh

如果需要指定connector的版本,以2.3.3版本为例,需要执行

sh bin/install-plugin.sh 2.3.3

也可以手动导入依赖

1.这个目录下放连接器

apache-seatunnel-2.3.3/connectors/seatunnel

2.这个目录下放MySQL和clickhouse连接驱动和seatunnel的source包

/usr/local/mysql/module/seatunnel/apache-seatunnel-2.3.3/lib

3.这个目录下放配置文件

/usr/local/mysql/module/seatunnel/apache-seatunnel-2.3.3/config

注意这里有一个

seatunnel-env.sh文件,是配置flink或者spark环境变量的文件需要配置

执行命令

注意这里bin目录下的启动脚本选择,启动先最好先看一下flink -v、环境变量文件seatunnel-env.sh的配置、脚本选择(flink版本不同,启动脚本不同),确保flink的jobmannean和taskman都启动,然后再执行任务

example08.conf配置文件中

env {
        execution.parallelism = 1
        job.mode = "STREAMING"
        checkpoint.interval = 2000
}
这里使用flink一定要是STREAMING,不能是BATCH

具体配置格式参考上面的第2点——2.seatunnel官网的source/sink模板

最后注意执行任务可能需要几十分钟,但数据一定要等任务运行完毕后才能过去

#附件是seatunnel2.3.3版本的完整目录,包含MySQL、clickhouse的连接驱动和配置文件,包括seatunnel-env.sh环境变量文件,根据数据同步链路和服务器参数改动 

#附件2是配置文件。从MySQL到clickhouse,从MySQL到Kafka,从Kafka到clickhouse

执行一次命令同步一次。在数据同步过程中,确保目标表和源表都存在,并且源表内有数据是非常重要的,这样才能够在执行同步命令后在目标表中看到同步效果

[root@172-xx-xxx-x bin]# ./start-seatunnel-flink-15-connector-v2.sh --config ../config/example07.conf 

seatunnel配置中的env {job.mode = "STREAMING"}的STREAMING和BATCH的区别

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值