在线QQ客服:1922638
专业的SQL Server、MySQL数据库同步软件需求
有2张大的mysql表,量级分别是1亿和4.5亿(太大了,DBA的同学正在考虑分表),而且数据是增量的,需要写spark任务做处理,直接读取mysql有点吃力,想通过sqoop定时增量直接导入hive,然后spark sql再与hive交互,能避免mysql的很多瓶颈,研究好几天sqoop定时任务,使用的是sqoop1,版本是sqoop-1.4.6-cdh5.7.0。
1.创建并执行sqoop job:
sqoop job-delete torderincrementjob//先删除之前的job
其中:
–password-file指定hdfs上存放的密码
–fields-terminated-by “\t” \ 指定列分隔符,即制表符
–lines-terminated-by “\n” \ 指定行分隔符,及换行符
–split-by id \ 指定分割的字段
–null-string ‘\N’ \ 指定string类型到hive里的值为NULL
–null-non-string ‘\N’ \ 指定非string类型到hive里的值为NULL
–incremental append
–check-column id
–last-value 1281
<