1.文档编写目的
本篇文章主要介绍如何使用StreamSets实时采集Kafka的数据并将采集的数据写入Hive,StreamSets的流程处理如下:
- 内容概述
1.测试环境准备
2.配置StreamSets
3.创建Pipline及测试
4.总结
- 测试环境
1.RedHat7.3
2.CM和CDH版本为cdh5.13.3
3.Kafka2.2.0(0.10.2)
4.StreamSets3.3.0
- 前置条件
1.集群已启用Kerberos
2.集群已安装Kafka并启用Kerberos
2.测试环境准备
1.准备一个访问Kerberos环境的Kafka的fayson.keytab文件
[root