sqoopADS层导出脚本

#!/bin/bash

#操作命令格式
#sh xxx.sh all
sqoop=/usr/hdp/3.1.4.0-315/sqoop/bin/sqoop
hive_db_name=test
mysql_db_name=test


export_data() {
$sqoop export \
--connect "jdbc:mysql://xxx:3306/${mysql_db_name}?useUnicode=true&characterEncoding=utf-8"  \
--username root \
--password password \
--table $1 \
--num-mappers 1 \
--export-dir /warehouse/$hive_db_name/ads/$1 \
--input-fields-terminated-by "\t" \
--update-mode allowinsert \
--update-key $2 \
--input-null-string '\\N'    \
--input-null-non-string '\\N'
}

case $1 in
"ads_tbl_ec_invoice_nsrtj_info")
	export_data "ads_tbl_ec_invoice_nsrtj_info" "NSR"
;;
"all")
	export_data "ads_tbl_ec_invoice_nsrtj_info" "NSR"
;;
esac

–update-key “NSR”
更新参考字段,一般为主键。
使用限制:update-key可以是多个字段,但这些字段的记录都应该是未被更新过的,若该参数指定的字段有更新,则对应记录的更新不会被同步到目标表中。

踩坑:
本人由于是测试,随便采了几个字段。但是作为主键的字段中含有NULL,而mysql主键设置不能为null。两者冲突,所以会导入失败。然后本人将mysql不设置主键,同时含有null的字段对应mysql表的主键去掉并且设置允许为Null。导入mysql成功,但是由于没有主键,多次执行脚本,会使数据库数据重复导入。sqoop只是作为搬运数据的工具,清洗数据应该在第一步完成。

1、当指定update-key,且关系型数据库表存在主键时:

A、allowinsert模式时,为更新目标数据库表存的内容,并且原来不存在的数据也导入到数据库表;
B、updateonly模式时,为更新目标数据库表存的内容,并且原来不存在的数据也不导入到数据库表;

2、当指定update-key,且关系型数据库表不存在主键时:

A、allowinsert模式时,为全部数据追加导入到数据库表;
B、updateonly模式时,为更新目标数据库表存的内容,并且原来不存在的数据也不导入到数据库表;

3、当不指定update-key,且关系型数据库表存在主键时:

A、allowinsert模式时,报主键冲突,数据无变化;
B、updateonly模式时,报主键冲突,数据无变化;

4、当不指定update-key,且关系型数据库表不存在主键时:

A、allowinsert模式时,为全部数据追加导入到数据库表;
B、updateonly模式时,为全部数据追加导入到数据库表;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值