kettle 从hive中读取数据并写入MongoDB

最新推荐文章于 2024-03-15 16:36:03 发布

小亚文

最新推荐文章于 2024-03-15 16:36:03 发布

阅读量3.3k

点赞数

分类专栏： kettle-教程

kettle-教程专栏收录该内容

7 篇文章 0 订阅

订阅专栏

kettle 从hive中读取数据并写入MongoDB有两种方法

1.方法一，流程图：

这里写图片描述

2. 下面分析每个流程的具体做法：

2.1 查询数据库中的内容，由于后面想要单独的字段date作为索引,所以直接在查询表的时候增加一个字段就可以。在该步骤中要确保数据库能够连上。
这里写图片描述

2.2 json输出（注意箭头指向的两个地方），这个步骤主要将字段组合为json，因为json需要的是将字段info，count_info所有的数据整合为一条json，所以在设置中要把数据条目设为0或者空值，所以该步骤中只需要这两个字段。运行到该步骤显示结果中只有outputValue字段，单独的字段是null，而且在outputValue结果中不见date字段是因为在字段选择中只选了前两个字段。
这里写图片描述

2.3 因为json输出后date值为空，因此后面还需要将该值设定一个值，我们取一个变量。值替换${ETL_DT}为自定义的变量。

2.4 mongodb输出
该步骤要确保能够连上mongdb,同时要注意红色方框的内容，Truncate collection是每次清空该表，
打上勾的地方表示是否需要删除collection和是否需要插入更新功能，打上勾都表示“是”。（本人这不需要每次清空，所以Truncate collection 不需要打上勾）
这里写图片描述

这一步是选择输出的字段，第一个field是kettle流中的字段，第二个field是mongo文档中的字段，需要注意的是第五个字段Match field for upsert，即是否作为更新参照字段，第六个field是标记字段是更新还是插入，或者有则更新无则插入。和关系型数据库的update语句功能一致：update table set col_1 = col_2 where col_3 = col_4 。
本文需要根据date来更新数据所以Match field for upsert 要选Y.
这里写图片描述