hive 临时表_hive丢数据了,怎么办

说明:这个问题是之前在上家,hive版本是hive-1.1.0,集群规模不大,当时只有500多台

一个周五将要下班的时候接到同事的电话说一个作业丢数据了将近200万,顿时隐隐感觉不妙,立马投入查看作业日志的进程中。分析作业日志发现临时表的结果输出是正确的,插入目标表的行数是不正确(下面有图说明),当时推断以为是插入目标表出现的错误,然后就分析插入目标的mapreduce日志,通过计算还真发现少读了一个文件,但是这个mapreduce日志又没有任何错误和警告,都是成功的,头大了。这台调度作业的机器是新机器,还以为是这个原因导致的,分析发现和新机器无关。同时把作业放到机器上重新跑生成临时表,看看结果是否正确。一跑两个小时,等到结果出来了,一看数据也丢失了,大喜!能复现,这就好办了,容易查找问题了。

生成临时表的输出的统计信息(这个数据是正确的)

bf7e5b29abcb056fedc2d9c6b177896e.png

生成目标表输出的统计信息(这个数据是错误的)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值