系列文章目录
StreamSet操作教学: JVM性能优化,支持上百个Job不是事
StreamSet操作教学: SqlServer同步到Hive
前言
在实时增量同步方案时 博主是通过Mysql -> Kafka -> HBase方案,其中加入Kafka缓存功能目的是在导入增量数据前 需要把历史全量数据先load进HBase,这里为了能保证数据一致性,才使用Kafka功能。
1. 配置Kafka Consumer
这里填写Kafka的必要配置,可以设置Kafka每个Batch pull的数据量。
选择Kafka消费数据格式为Json。
2. 配置JavaScript Evaluator
编写JavaScript实现rowkey反转功能,并赋值给一个新的字段rowkey,因为测试后发现Streamsets不支持原生的reserve反转函数,自己就通过遍历字符串实现了一个反转功能。大家有更好的方法可以留言交流~
3. 配置HBase
这里的rowkey就指定为前面JavaScript中生成的新字段就行了。
总结
欢迎大家扫一扫下面个人微信,我会拉大家进入大数据技术交流群,一起学习一起进步吧。