Shell脚本给Datax的job文件传参

最新推荐文章于 2024-05-16 16:33:03 发布

为一个人走几座城

最新推荐文章于 2024-05-16 16:33:03 发布

阅读量4.7k

点赞数 1

分类专栏：个人随笔文章标签： datax shell

本文链接：https://blog.csdn.net/weixin_40163498/article/details/90205477

版权

个人随笔专栏收录该内容

17 篇文章 0 订阅

订阅专栏

当前有一个需求，读取HDFS中的分区数据，然后将数据写入到MongoDB。

由于要求每次导入Mongo的是增量的数据，但HDFS中没有相应的字段对数据进行标识哪些是新增的。需要依据相应的策略去判断相应的增量数据。

通过Hive的SQL将每天的全量数据与历史的增量数据进行关联（LEFT OUTER JOIN）where条件是右表的关联字段IS NULL，而关联条件是基于判重的字段组合生成MD5，以md5进行数据是否是新增数据的判断依据。

SELECT
    *
FROM olap.community_six t1
LEFT JOIN olap.community_six_inc t2 ON t1.md5 = t2.md5

得到新增数据后，写入以日期为分区字段的新增数据表相应的分区中。通过DataX抽取增量数据写入Mongo，但是要求每天读取当天的分区，避免导入重复的数据。

以下为shell脚本：

#!/bin/bash

TODAY=`date +"%Y-%m-%d"`

python /export/servers/datax/bin/datax.py -p "-DTODAY=${TODAY}" \
/export/servers/datax/job/deal.json

以下为DataX的job文件中需要传入动态参数的地方：

"reader": {
       "name": "hdfsreader",
       "parameter": {
       "path":"/user/hive/warehouse/olap.db/community_six/update_date=${TODAY}/*",
       "defaultFS": "hdfs://10.66.202.88:9000"

为一个人走几座城

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Shell脚本给Datax的job文件传参

当前有一个需求，读取HDFS中的分区数据，然后将数据写入到MongoDB。由于要求每次导入Mongo的是增量的数据，但HDFS中没有相应的字段对数据进行标识哪些是新增的。需要依据相应的策略去判断相应的增量数据。通过Hive的SQL将每天的全量数据与历史的增量数据进行关联（LEFT OUTER JOIN）where条件是右表的关联字段IS NULL，而关联条件是基于判重的字段组合生成M...
复制链接

扫一扫