#!/bin/bash
#操作命令格式
#sh xxx.sh all
sqoop=/usr/hdp/3.1.4.0-315/sqoop/bin/sqoop
hive_db_name=test
mysql_db_name=test
export_data() {
$sqoop export \
--connect "jdbc:mysql://xxx:3306/${mysql_db_name}?useUnicode=true&characterEncoding=utf-8" \
--username root \
--password password \
--table $1 \
--num-mappers 1 \
--export-dir /warehouse/$hive_db_name/ads/$1 \
--input-fields-terminated-by "\t" \
--update-mode allowinsert \
--update-key $2 \
--input-null-string '\\N' \
--input-null-non-string '\\N'
}
case $1 in
"ads_tbl_ec_invoice_nsrtj_info")
export_data "ads_tbl_ec_invoice_nsrtj_info" "NSR"
;;
"all")
export_data "ads_tbl_ec_invoice_nsrtj_info" "NSR"
;;
esac
–update-key “NSR”
更新参考字段,一般为主键。
使用限制:update-key可以是多个字段,但这些字段的记录都应该是未被更新过的,若该参数指定的字段有更新,则对应记录的更新不会被同步到目标表中。
踩坑:
本人由于是测试,随便采了几个字段。但是作为主键的字段中含有NULL,而mysql主键设置不能为null。两者冲突,所以会导入失败。然后本人将mysql不设置主键,同时含有null的字段对应mysql表的主键去掉并且设置允许为Null。导入mysql成功,但是由于没有主键,多次执行脚本,会使数据库数据重复导入。sqoop只是作为搬运数据的工具,清洗数据应该在第一步完成。
1、当指定update-key,且关系型数据库表存在主键时:
A、allowinsert模式时,为更新目标数据库表存的内容,并且原来不存在的数据也导入到数据库表;
B、updateonly模式时,为更新目标数据库表存的内容,并且原来不存在的数据也不导入到数据库表;
2、当指定update-key,且关系型数据库表不存在主键时:
A、allowinsert模式时,为全部数据追加导入到数据库表;
B、updateonly模式时,为更新目标数据库表存的内容,并且原来不存在的数据也不导入到数据库表;
3、当不指定update-key,且关系型数据库表存在主键时:
A、allowinsert模式时,报主键冲突,数据无变化;
B、updateonly模式时,报主键冲突,数据无变化;
4、当不指定update-key,且关系型数据库表不存在主键时:
A、allowinsert模式时,为全部数据追加导入到数据库表;
B、updateonly模式时,为全部数据追加导入到数据库表;