Sqoop从MySQL导数据至hive数据表异常(数据量不对,数据值不对)

通过数据比对,发现sqoop导入hive的数据与MySQL原始数据对应不上,表现为两点:

①查数据总数不对,MySQL的count(1) = 108120条数据,但是导入至hive发现只有108112条数据,数据发生了丢失。

②应查数据值不对,查询到某个字段,MySQL值中仅有1,2两种值,但是hive表中包含1,2,以及一串看不懂的数字。

经反复核对数据,发现问题症结,所以就将它记录下来了。

原因是导入的数据里面包含\t,\n等分隔符。

hive 默认的分隔符是\001 (^A),建表的时候用fields-terminated-by "\001"。

如果hive建表使用\t或者\001进行分隔字段,那么mysql数据库中的字段里面就不能包含该字符,否则就会到此分隔,从而导致数据不对。

如果,数据库里面已经存在这种数据,也可以设置参数。

--hive-drop-import-delims 导入hive时删除\n,\r,\001

--hive-delims-replacement ',' 导入到hive时用自定义的字符串进行替换掉 \n,\r,\001

解决。

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值