datax到hive数据全部为空_Datax的一次填坑经历

使用Datax进行两个集群间的数据同步,在读取HDFS数据时,会出现数据丢失问题,本文针对数据丢失问题做出了分析以及对应解决方案,希望帮助大家在使用Datax过程中避免该问题的出现!

问题描述

最近在使用Datax进行两个集群间的数据同步,将老集群(Hive)数据同步到新集群(Phoenix)中,由于两个集群的大数据节点IP不同,老集群有三个IP段(10、20、30)采用的是30段(大数据专用网断),而新集群是采用的20网断,所以无法通过Datax链接老集群HDFS路径,当然这个并不是问题重点。

第一次同步的时候数据是全部同步到了新集群,然而,因为业务关系某个表需要添加三个字段,之后表数据又重新构建了一遍,我们称之为info表吧,然后再次执行脚本将info表同步一下,本来是5000W+的数据,同步完之后缺失了700W+

请忽略读写失败总数,这个不是问题关键,这个是由于字段长度超出了Phoenix表配置的长度,并非Datax问题。

注意看读出记录总数:4442W,而我实际数据表中是有5152W,少了700W+

之后重试了两次,问题依旧!

问题分析

导入成功了4442w,剩余700w没有导入,可以先查看这未成功导入的700w数据是否有数据问题,之后进行了以下操作,最终定位到问题所在

步骤一

将新集群的HDFS数据,导入到hive中查看数据量是否缺少,发现将数据同步到hive之后,数据量与老集群是保持一致,这里基本可以断定数据本身是没有

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值