Kettle批量操作流程使用（一）---单个数据源多表批量操作

最新推荐文章于 2024-09-20 14:22:42 发布

攀登的蜗牛

最新推荐文章于 2024-09-20 14:22:42 发布

阅读量1.9w

点赞数 8

分类专栏：记录文章标签： ETL Kettle 批量操作

本文链接：https://blog.csdn.net/wangxiaotaolhc/article/details/79310732

版权

记录专栏收录该内容

8 篇文章 0 订阅

订阅专栏

最近在工作上用到了kettle，目前这个开源的ETl工具相对来说比较火，用做数据抽取清洗工作很方便也很快捷。当然也还有不少的问题，比如使用过程中会发生闪退（测试了几个版本都存在），还有建好的Job和Transfer保存文件，然后再次打开的时候都是空白。抛开这些问题暂时不说，试用了一段时间以后，确实是解决了很多很大的问题。

在使用kettle之前，自己生产了一个任务调度系统去完成ETl工作，不过使用起来还比较麻烦，对于批量的表，批量的数据源导入扩展性不是很好。而现在kettle的功能完全能满足我们目前的任务需求，同时kettle目前这么火没有理由不去接触kettle。

我们的需求是这样，目前我们的业务系统在线上部署了1000多个独立用户节点，而这1000多个节点的数据表结构基本上都相同，因此我们想要在kettle完成的一个工作就是，编写一个流程完成1000多个用户节点，1000多张表的数据抽取。如果一个表维护一个任务，那总共要维护1000*1000个任务，如果一个用户节点维护一个任务，那总共要维护1000多个任务。而基于各个节点的业务表结构基本一样这个特点，我们想要的是只维护一个任务，完成1000多个用户节点和1000多个表的数据抽取。基于这个需求，我们分三个步骤完成了前期调研测试。在此将三个步骤测试过程和结果放在这里，期待高手能给出更好的解决思路和方法。本实验测试环境的源数据库：Postgres，目标数据库：Postgres（正式环境将采用GreenPlum）

（1）单个数据源多表批量操作：每次只连接一个数据源，把表名作为变量，维护一个任务抽取一个用户节点的所有数据

（2）多个数据源单标批量操作：动态链接多个数据源，每个数据源只对一个表做数据抽取

（3）多个数据源多表批量操作：动态链接多个数据源，每个数据源所有表做数据抽取

下面是单个数据源多表批量操作：

1.1 新建获取表名Transfer

1）新建Transfer所需的三个步骤分别是表输入、字段选择、复制记录到结果，并保存到文件：getTables.ktr如下图所示：