hive查询所有方法,join

最新推荐文章于 2022-05-03 11:42:13 发布

刘跃盛

最新推荐文章于 2022-05-03 11:42:13 发布

阅读量114

点赞数

分类专栏： hadoop hive 大数据文章标签： hive

本文链接：https://blog.csdn.net/a13813972564/article/details/118606258

版权

大数据同时被 3 个专栏收录

27 篇文章 0 订阅

订阅专栏

hadoop

20 篇文章 0 订阅

订阅专栏

hive

16 篇文章 0 订阅

订阅专栏

语法结构
在这里插入图片描述
注意
hive查询语法剖析

order by 全局排序，只有一个reduceTask，如果数据量太大的话，那么就会导致数据处理速度非常慢
sort by 有多个reduceTask只保证每个reduceTask里面的数据有序，两个reduceTask之间的数据无序
distributed by 根据指定的字段，按照指定的字段进行 hash算法，确定我们的数据要去往哪里一个reduce
cluster by ：除了具有distributed by的功能，还会对这个字段今夕排序

hive的group bu 语法
select的字段只能少于等于group by的字段

基础查询
在这里插入图片描述

group by hive与mysql的区别
hive的group by语法，group by的阻断需要在select跟上该字段或者不跟，但是不能加不在group by后面的字段，select的字段只能少于等于group by的字段
hive：

select avg(s_score) from score group by s_id;```
select的字段只能总group by 的字段挑选
==mysql==： 是没有这个限制的     ```select * from score group by s_id;```

![在这里插入图片描述](https://img-blog.csdnimg.cn/20210709145409879.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ExMzgxMzk3MjU2NA==,size_16,color_FFFFFF,t_70)
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210709145535103.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ExMzgxMzk3MjU2NA==,size_16,color_FFFFFF,t_70)
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210709145734639.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ExMzgxMzk3MjU2NA==,size_16,color_FFFFFF,t_70)
==表join 杜绝使用not in 来做where查询  
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210709145959193.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ExMzgxMzk3MjU2NA==,size_16,color_FFFFFF,t_70)
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210709150248566.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ExMzgxMzk3MjU2NA==,size_16,color_FFFFFF,t_70)
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210709150455603.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ExMzgxMzk3MjU2NA==,size_16,color_FFFFFF,t_70)
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210709150633378.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ExMzgxMzk3MjU2NA==,size_16,color_FFFFFF,t_70)
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210709150806554.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ExMzgxMzk3MjU2NA==,size_16,color_FFFFFF,t_70)
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210709150925486.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ExMzgxMzk3MjU2NA==,size_16,color_FFFFFF,t_70)distributed  by   按照某个字段进行MR的第三步的分区，确定我们的数据要去往哪一个reducetask里面去
sort  by  按照某一个字段进行reduce内部的数据的排序
如果distributed   by 的字段与sort  by的字段一样  那么久可以用clustered  by来替代

刘跃盛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive查询所有方法,join

语法结构注意hive查询语法剖析order by 全局排序，只有一个reduceTask，如果数据量太大的话，那么就会导致数据处理速度非常慢sort by 有多个reduceTask只保证每个reduceTask里面的数据有序，两个reduceTask之间的数据无序distributed by 根据指定的字段，按照指定的字段进行 hash算法，确定我们的数据要去往哪里一个reducecluster by ：除了具有distributed by的功能，还会对这个字段今夕排序hive的gro
复制链接

扫一扫

专栏目录