将Mongodb处理后倒入Hive中可以按照如下步骤处理:
1.利用Mongodb自带的mongoexport方式导出Json或者CSV文本,这里我才用的是导出Json ,因为CSV的话,在处理分隔符等问题,可能会有些棘手。
2.在Hive 中建表(只包含一个字段,string类型),所有数据存在一列,这样就不存在对于避免设定分隔符出现丢数据的问题。
3.利用Datax处理,导入Hive,将所有数据导入Hive,其中在Datax的Job Plain json文件中可以配置处理的脚本等等。
Tips:
1.create table sdm_loan_account_details_inc(param string) row format delimited fields terminated by "\t" STORED AS ORC;
2.
mongoexport --host ip --port port --username username --password password --db database --collection
Table_name --type json --query '{timeUpdated:{"$gte":1507996800000,"$lt":1508083199000}}'
--out /dest file