hive定时清洗至mysql_[数据库到hive增量同步]sqoop定时增量导入mysql数据到hdfs(hive)...

bc3f9276acf88283a0569b9b9ef9ee92.png

在线QQ客服:1922638

专业的SQL Server、MySQL数据库同步软件需求

有2张大的mysql表,量级分别是1亿和4.5亿(太大了,DBA的同学正在考虑分表),而且数据是增量的,需要写spark任务做处理,直接读取mysql有点吃力,想通过sqoop定时增量直接导入hive,然后spark sql再与hive交互,能避免mysql的很多瓶颈,研究好几天sqoop定时任务,使用的是sqoop1,版本是sqoop-1.4.6-cdh5.7.0。

1.创建并执行sqoop job:

sqoop job-delete torderincrementjob//先删除之前的job

其中:

–password-file指定hdfs上存放的密码

–fields-terminated-by “\t” \ 指定列分隔符,即制表符

–lines-terminated-by “\n” \ 指定行分隔符,及换行符

–split-by id \ 指定分割的字段

–null-string ‘\N’ \ 指定string类型到hive里的值为NULL

–null-non-string ‘\N’ \ 指定非string类型到hive里的值为NULL

–incremental append

–check-column id

–last-value 1281

<
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值