1.背景
在下在研究hive时,手上的数据是excel数据转化为txt以后再改为UTF-8编码最后上传的。txt文件有若干个,将它们统一编号使用rz命令上传到linux虚拟机上,放在同一个新建的文件夹下。
首先是创建表,然后将所有txt文件中的数据导入表中
LOAD DATA LOCAL INPATH '/root/test/*.txt' INTO TABLE turbo;
这时候就可以对表进行操作了,首先使用COUNT(*)
查询一下表中数据总量,得到结果为130963条。
2.问题发现
在对表中数据做CASE WHEN查询时,很确信自己把所有的情况都考虑在内,然而ELSE一项还是得出了4984条。这对一个仅十多万条数据来说实在不能忽视,于是在下准备分析其原因。随后尝试将ELSE一项的所有数据全部查询并导出
INSERT OVERWRITE LOCAL DIRECTORY '/tmp/quer