用sqoop将Oracle数据全量/增量导入到HIve的Shell/python脚本(第二版)

铭哥大数据

已于 2022-02-15 23:38:12 修改

阅读量2.3k

点赞数 1

分类专栏：脚本文章标签： hive oracle sqoop

于 2022-02-15 22:17:23 首次发布

本文链接：https://blog.csdn.net/qq_40870024/article/details/122953319

版权

本文介绍了如何使用Shell脚本和Python脚本，通过sqoop实现从Oracle数据库全量和增量地导入数据到Hive。详细讲解了全量导入与增量导入的步骤，并提供了具体的执行流程。

摘要由CSDN通过智能技术生成

Shell脚本

全量导入

#!/usr/bin/env bash
# /bin/bash
biz_date=20210101
biz_fmt_date=2021-01-01
dw_parent_dir=/data/dw/ods/one_make/full_imp
workhome=/opt/sqoop/one_make
full_imp_tables=${workhome}/full_import_tables.txt
mkdir ${workhome}/log

orcl_srv=oracle.bigdata.cn
orcl_port=1521
orcl_sid=helowin
orcl_user=ciss
orcl_pwd=123456

sqoop_import_params="sqoop import -Dmapreduce.job.user.classpath.first=true --outdir ${workhome}/java_code --as-avrodatafile"
sqoop_jdbc_params="--connect jdbc:oracle:thin:@${orcl_srv}:${orcl_port}:${orcl_sid} --username ${orcl_user} --password ${orcl_pwd}"

# load hadoop/sqoop env
source /etc/profile

while read p; do
    # parallel execution import
    ${sqoop_import_params} ${sqoop_jdbc_params} --target-dir ${dw_parent_dir}/${p}/${biz_date} --table ${p^^} -m 1 &
    cur_time=`date "+%F %T"`
    echo "${cur_time}: ${sqoop_import_params} ${sqoop_jdbc_params} --target-dir ${dw_parent_dir}/${p}/${biz_date} --table ${p} -m 1 &" >> ${workhome}/log/${biz_fmt_date}_full_imp.log
    sleep 30
done < ${full_imp_tables}

# 如果使用了MR的Uber模式，必须在程序中加上以下-Dmapreduce.job.user.classpath.first=true 避免类冲突问题
#--outdir：Sqoop解析出来的MR的Java程序等输出文件输出的文件
# p^^ 变成 大写
# cur_time=`date "+%F %T"` 获取当前时间
# sleep 30  防止内存资源不足

增量导入

#!/usr/bin/env bash
# 编写SHELL脚本的时候要特别小心，特别是编写SQL的条件，如果中间加了空格，就会导致命令执行失败
# /bin/bash
biz_date=20210101
biz_fmt_date=2021-01-01
dw_parent_dir=/data

最低0.47元/天解锁文章

铭哥大数据

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录