hive练习

最新推荐文章于 2024-05-16 10:45:48 发布

weixin_36607803

最新推荐文章于 2024-05-16 10:45:48 发布

阅读量672

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/weixin_36607803/article/details/53433345

版权

大数据专栏收录该内容

20 篇文章 0 订阅

订阅专栏

查询全体学生的学号与姓名
　　hive> select Sno,Sname from student;

查询选修了课程的学生姓名
　　hive> select distinct Sname from student inner join sc on student.Sno=Sc.Sno;

----hive的group by 和集合函数

查询学生的总人数
　　hive> select count(distinct Sno)count from student;

计算1号课程的学生平均成绩
　　hive> select avg(distinct Grade) from sc where Cno=1;
查询各科成绩平均分
hive> select Cno,avg(Grade) from sc group by Cno;
查询选修1号课程的学生最高分数
　　select Grade from sc where Cno=1 sort by Grade desc limit 1;
　　
　　
求各个课程号及相应的选课人数
　　hive> select Cno,count(1) from sc group by Cno;

查询选修了3门以上的课程的学生学号
　　hive> select Sno from (select Sno,count(Cno) CountCno from sc group by Sno)a where a.CountCno>3;
或　hive> select Sno from sc group by Sno having count(Cno)>3;

----hive的Order By/Sort By/Distribute By
　　Order By ，在strict 模式下（hive.mapred.mode=strict),order by 语句必须跟着limit语句，但是在非strict下就不是必须的，这样做的理由是必须有一个reduce对最终的结果进行排序，如果最后输出的行数过多，一个reduce需要花费很长的时间。

查询学生信息，结果按学号全局有序
　　hive> set hive.mapred.mode=strict;
hive> select Sno from student order by Sno;
FAILED: Error in semantic analysis: 1:33 In strict mode, if ORDER BY is specified, LIMIT must also be specified. Error encountered near token 'Sno'
　　Sort By，它通常发生在每一个redcue里，“order by” 和“sort by"的区别在于，前者能给保证输出都是有顺序的，而后者如果有多个reduce的时候只是保证了输出的部分有序。set mapred.reduce.tasks=<number>在sort by可以指定，在用sort by的时候，如果没有指定列，它会随机的分配到不同的reduce里去。distribute by 按照指定的字段对数据进行划分到不同的输出reduce中
　　此方法会根据性别划分到不同的reduce中，然后按年龄排序并输出到不同的文件中。

查询学生信息，结果区分性别按年龄有序
　　hive> set mapred.reduce.tasks=2;
　　hive> insert overwrite local directory '/home/hadoop/out'
select * from student distribute by Sex sort by Sage;

----Join查询,join只支持等值连接
查询每个学生及其选修课程的情况
　　hive> select student.*,sc.* from student join sc on (student.Sno =sc.Sno);
查询学生的得分情况。
　　hive>select student.Sname,course.Cname,sc.Grade from student join sc on student.Sno=sc.Sno join course on sc.cno=course.cno;

查询选修2号课程且成绩在90分以上的所有学生。
　　hive> select student.Sname,sc.Grade from student join sc on student.Sno=sc.Sno
where sc.Cno=2 and sc.Grade>90;
　　
----LEFT，RIGHT 和 FULL OUTER JOIN
查询所有学生的信息，如果在成绩表中有成绩，则输出成绩表中的课程号
　　hive> select student.Sname,sc.Cno from student left outer join sc on student.Sno=sc.Sno;
　　如果student的sno值对应的sc在中没有值，则会输出student.Sname null.如果用right out join会保留右边的值，左边的为null。
　　Join 发生在WHERE 子句之前。如果你想限制 join 的输出，应该在 WHERE 子句中写过滤条件——或是在join 子句中写。
　　
----LEFT SEMI JOIN Hive 当前没有实现 IN/EXISTS 子查询，可以用 LEFT SEMI JOIN 重写子查询语句

重写以下子查询为LEFT SEMI JOIN
SELECT a.key, a.value
FROM a
WHERE a.key exist in
(SELECT b.key
FROM B);
可以被重写为：
SELECT a.key, a.val
FROM a LEFT SEMI JOIN b on (a.key = b.key)

查询与“刘晨”在同一个系学习的学生
　　hive> select s1.Sname from student s1 left semi join student s2 on s1.Sdept=s2.Sdept and s2.Sname='刘晨';

1. order by
Hive中的order by跟传统的sql语言中的order by作用是一样的，会对查询的结果做一次全局排序，所以说，只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理（不管有多少map，也不管文件有多少的block只会启动一个reducer）。但是对于大量数据这将会消耗很长的时间去执行。
这里跟传统的sql还有一点区别：如果指定了hive.mapred.mode=strict（默认值是nonstrict）,这时就必须指定limit来限制输出条数，原因是：所有的数据都会在同一个reducer端进行，数据量大的情况下可能不能出结果，那么在这样的严格模式下，必须指定输出的条数。
2. sort by
Hive中指定了sort by，那么在每个reducer端都会做排序，也就是说保证了局部有序（每个reducer出来的数据是有序的，但是不能保证所有的数据是有序的，除非只有一个reducer），好处是：执行了局部排序之后可以为接下去的全局排序提高不少的效率（其实就是做一次归并排序就可以做到全局排序了）。

3. distribute by和sort by一起使用
ditribute by是控制map的输出在reducer是如何划分的，举个例子，我们有一张表，mid是指这个store所属的商户，money是这个商户的盈利，name是这个store的名字

store:

mid money name
AA 15.0 商店1
AA 20.0 商店2
BB 22.0 商店3
CC 44.0 商店4
执行hive语句：

[delphi] view plain copy 在CODE上查看代码片派生到我的代码片
select mid, money, name from store distribute by mid sort by mid asc, money asc
我们所有的mid相同的数据会被送到同一个reducer去处理，这就是因为指定了distribute by mid，这样的话就可以统计出每个商户中各个商店盈利的排序了（这个肯定是全局有序的，因为相同的商户会放到同一个reducer去处理）。这里需要注意的是distribute by必须要写在sort by之前。
4. cluster by
cluster by的功能就是distribute by和sort by相结合，如下2个语句是等价的：

[sql] view plain copy 在CODE上查看代码片派生到我的代码片
select mid, money, name from store cluster by mid
[sql] view plain copy 在CODE上查看代码片派生到我的代码片
select mid, money, name from store distribute by mid sort by mid
如果需要获得与3中语句一样的效果：
[sql] view plain copy 在CODE上查看代码片派生到我的代码片
select mid, money, name from store cluster by mid sort by money
注意被cluster by指定的列只能是降序，不能指定asc和desc。

weixin_36607803

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
hive练习

查询全体学生的学号与姓名　　hive> select Sno,Sname from student;查询选修了课程的学生姓名　　hive> select distinct Sname from student inner join sc on student.Sno=Sc.Sno;----hive的group by 和集合函数查询学生的总人数　　hi
复制链接

扫一扫