![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
sun657053178
这个作者很懒,什么都没留下…
展开
-
hive中3种求差集的效率
1、not exists –百万级:76244ms –千万级:211103ms ----亿级:294836ms 2、not in –百万级:196082ms –千万级:248450ms ----亿级:305112ms 3、left outer join on t1.a= t2.a and t2.a is null –百万级:333372ms –千万级:348681ms ----亿级:368529ms 4、注意 join能处理多字段的情况 左右都求差集时用 full join ...原创 2020-08-18 18:26:57 · 944 阅读 · 0 评论 -
hive 各种by相关的介绍
hive 各种by相关的介绍 1、order by hive中的order by和传统sql中的order by 一样,会对数据做全局排序,加上排序,会新启动一个jod进行排序,会把所有数据放到同一个reduce中进行处理,不管数据多少, 不管文件多少,都启用一个reduce进行处理。 注意: (1):order by后面可以有多列进行排序,默认按字典排序 (2):order by为全局排序 (3):order by需要reduce操作,且只有一个reduce,无法配置(因为多个reduce无法完成全局排序原创 2020-08-18 18:13:59 · 572 阅读 · 0 评论 -
Hadoop Shuffle
一、大体流程 Shuffle描述的是数据从Map端到Reduce端的过程,大致分为排序(sort)、溢写(spill)、合并(merge)、拉取拷贝(Copy)、合并排序(merge sort)这几个过程。 二、Map端 1、sort Map端的输出数据,先写环形缓存区kvbuffer,当环形缓冲区到达一个阀值(可以通过配置文件设置,默认80),便要开始溢写,但溢写之前会有一个sort操作,这个sort操作先把Kvbuffer中的数据按照partition值和key两个关键字来排序,..原创 2020-05-24 14:48:20 · 1299 阅读 · 0 评论 -
Hadoop
Hadoop原创 2019-11-05 18:05:49 · 91 阅读 · 0 评论