网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
1、Kettle的插入更新任务步骤(样例直接全量插入更新)
(1)关键是插入更新控件配置
2、在MySQL中直接修改表中数据
3、再次运行Kettle任务
4、在MySQL目标表中验证数据
数据量并没增加,只是发生更新
(二)类ClickHouse列式存储数据库
但是,对于ClickHouse这种列式存储数据库,不适合删除、修改等事务性操作,则没法直接使用Kettle的插入更新控件
1、Kettle的插入更新任务步骤
(1)关键是插入更新控件配置
用来查询的关键字是不需要基本不需要变更的字段,一般是主键,如果没有主键则几个字段组合成主键
更新字段是所有字段,不能把更新N,否则相关字段只能插入不能更新
2、用Kettle插入更新控件实现增量插入更新后,如果数据没有更改则运行没有问题
3、但是如果更改部分字段的数据,则会报错
(1)先在Hive中增加一天数据以增加DWS层表中数据
(2)再次运行Kettle任务,则会报错
所以,对于相同的插入更新控件配置,导入MySQL插入更新可以,导入ClickHouse插入更新则失败!
四、对于从Hive到ClickHouse,要实现插入更新的功能,只能先删除ClickHouse表数据再导入数据
(一)删除ClickHouse数据方式
删除ClickHouse数据虽然有几种方法,可以delete,也可以删除分区,也可以truncate,也可以TTL设置保存时间,还可以删除数据文件,但是对这种需要即时删除ClickHouse表中最新的分区数据,无法用delete、TTL等方式实现,而删除分区又太麻烦,刚好这几张表的数据量较少,因此先采用truncate方式,先删除表数据,再全量导入即可
(二)truncate方式实现方法
1、SQL运行
2、在表输出控件中勾选✔剪裁表
这两种方式都试过,都可以!
但是为了避免勾选✔剪裁表后面可能导致问题,还是实现SQL实现稳妥些
五、Kettle任务步骤
(一)执行SQL脚本
(二)hive输入
(三)字段选择
(四)clickhouse输出
(五)保存后运行kettle任务
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
ttps://bbs.csdn.net/forums/4f45ff00ff254613a03fab5e56a57acb)**
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!