Hive
文章平均质量分 63
自封的羽球大佬
士不可以不弘毅,任重而道远。
展开
-
对hive二进制存储格式,即SequenceFile和RCFile的思考总结
1. SequenceFile是面向行,RCFile是面向列。2. TextFile,SequenceFile,RCFile是hive常用的三种存储格式。其中,TextFile是hive默认的存储格式,SequenceFile和RCFile是二进制存储格式。3. 相比于TextFile,SequenceFile和RCFile支持压缩,文件压缩后上传到HDFS上,下载后不支持直接查看,故所占...原创 2018-08-12 11:19:54 · 2444 阅读 · 0 评论 -
谈谈hive的order by ,sort by ,distribute by 和 cluster by
总说:笼统地看,这四个在hive中都有排序和聚集的作用,然而,它们在执行时所启动的MR却各不相同。细讲:order by:order by会对所给的全部数据进行全局排序,并且只会“叫醒”一个reducer干活。它就像一个糊涂蛋一样,不管来多少数据,都只启动一个reducer来处理。因此,数据量小还可以,但数据量一旦变大order by就会变得异常吃力,甚至“罢工”。sort ...原创 2018-08-29 22:26:28 · 26618 阅读 · 6 评论 -
也谈JOIN在MySQL和Hive中的表现
这几天参加面试,碰到了很多join题,特此总结下。总体上,join在mysql和hive中的使用差别不大,但若细究区别还是有的。I.首先来看看mysql:1、笛卡儿积(cross join)在MySQL中,当不指定on的条件时,inner join(或称join)和cross join(笛卡儿积)的执行效果一样,都是两个表的乘积。若指定了on的条件,则inner ...原创 2018-09-29 00:15:58 · 973 阅读 · 0 评论