sqoop全量导入与增量导入sqlserver数据
1.全量导入
正常导入即可
2.增量导入
sqoop支持两种增量导入到hive的模式, 一种是 append,即通过指定一个递增的列,(如果没有可以插入一列自增的数)比如:
--incremental append --check-column id --last-value 0
另一种是可以根据时间戳,比如:
--incremental lastmodified --check-column time --last-value '2018-01-01 11:0:00'
就是只导入time(时间戳字段)比'2018-01-01 11:0:00'更大的数据。
bin/sqoop import \
--connect 'jdbc:sqlserver://xx.xx.xx.xxx:1433;database=库名' \
--username 'root' \
--password 'root' \
--table 'bbb' \
--split-by ResponseTime
--target-dir /user/bbb \
--incremental append \
--check-column num \
--last-value 201805081
#插入该值以后的数据
--check-column WorkNo #指定字段为num
1.全量导入
正常导入即可
2.增量导入
sqoop支持两种增量导入到hive的模式, 一种是 append,即通过指定一个递增的列,(如果没有可以插入一列自增的数)比如:
--incremental append --check-column id --last-value 0
另一种是可以根据时间戳,比如:
--incremental lastmodified --check-column time --last-value '2018-01-01 11:0:00'
就是只导入time(时间戳字段)比'2018-01-01 11:0:00'更大的数据。
bin/sqoop import \
--connect 'jdbc:sqlserver://xx.xx.xx.xxx:1433;database=库名' \
--username 'root' \
--password 'root' \
--table 'bbb' \
--split-by ResponseTime
--target-dir /user/bbb \
--incremental append \
--check-column num \
--last-value 201805081
#插入该值以后的数据
--check-column WorkNo #指定字段为num