1.文档编写目的
通过StreamSets实现数据采集,在实际生产中需要实时捕获MySQL、Oracle等其他数据源的变化数据(简称CDC)将变化数据实时的写入大数据平台的Hive、HDFS、HBase、Solr、Elasticserach等。本篇文章主要介绍如何使用使用StreamSets通过JDBC的方式实时抽取增量数据到Hive。
StreamSets实现的流程如下:
- 内容概述
1.环境准备
2.创建StreamSets的Pipeline流程
3.Pipeline流程测试
- 测试环境
1.StreamSets版本为3.1.2.0
2.CM和CDH版本为5.13.1
3.MariaDB版本为5.5.44
2.环境准备
1.准备测试表和数据
[root@cdh4