hive处理实际数据时数据总量的问题

1.背景

在下在研究hive时,手上的数据是excel数据转化为txt以后再改为UTF-8编码最后上传的。txt文件有若干个,将它们统一编号使用rz命令上传到linux虚拟机上,放在同一个新建的文件夹下。

首先是创建表,然后将所有txt文件中的数据导入表中

LOAD DATA LOCAL INPATH '/root/test/*.txt' INTO TABLE turbo;

这时候就可以对表进行操作了,首先使用COUNT(*)查询一下表中数据总量,得到结果为130963条。

2.问题发现

在对表中数据做CASE WHEN查询时,很确信自己把所有的情况都考虑在内,然而ELSE一项还是得出了4984条。这对一个仅十多万条数据来说实在不能忽视,于是在下准备分析其原因。随后尝试将ELSE一项的所有数据全部查询并导出

INSERT OVERWRITE LOCAL DIRECTORY '/tmp/quer
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值