HIVE
Clark逸晨
这个作者很懒,什么都没留下…
展开
-
hive mapjoin 使用
HIVE mapjoinselect f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且在reduece的过程中遇有内存不够而报转载 2017-10-24 11:01:00 · 802 阅读 · 0 评论 -
【Hive】hive的数据压缩
Hive文件存储格式包括以下几类:1、TEXTFILE2、SEQUENCEFILE3、RCFILE4、ORCFILE 其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。 SEQUENCEFILE,RCFILE,ORCFILE格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中, 然后转载 2017-10-25 14:00:35 · 1341 阅读 · 0 评论 -
HIVE 中 order by, sort by, distribute by, cluster by的用法和区别
1、order by hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中进行处理,不管数据多少,不管文件多少,都启用一个reduce进行处理。如果指定了hive.mapred.mode=strict(默认值是nonstrict),这时就必须指定limit来限制输出条数,原因是:...原创 2018-02-27 09:59:58 · 475 阅读 · 0 评论