1.文档编写目的
本篇文章主要介绍如何使用StreamSets实时采集Kafka的数据并将采集的数据写入Kudu。
- 内容概述
1.测试环境准备
2.准备生产Kafka数据脚本
3.配置StreamSets
4.流程测试及数据验证
- 测试环境
1.RedHat7.4
2.CM和CDH版本为cdh5.13.3
3.kafka3.0.0(0.11.0)
4.Kudu 1.5.0
- 前置条件
1.集群已安装Kafka并正常运行
2.集群未启用Kerberos
2.测试环境准备
1.通过如下命令创建测试topic
kafka-topics --create --zookeeper master.gzyh.com:2181,cdh01.gzyh.com:2181,cdh02.gzyh.com:2181 --replication-factor 3 --partitions 3 --topic kafka2kudu_topic
(可左右滑动)
2.通过Hue使用Impala创建一个Kudu表,创建脚本如下:
CREATE TABLE ods_deal_daily_kudu (
id STRING COMPRESSION snappy,
name STRING COMPRESSION snappy,
sex STRING COMPRESSION snappy,