大数据仓库技术实训任务4

大数据仓库技术实训——任务4

实验背景:

Student(Sid,Sname,Sage,Ssex)学生表

Sid:学号

Sname:学生姓名

Sbirth:学生生日

Ssex:学生性别


Course(Cid,Cname,T#)课程表

Cid:课程编号

Cname:课程名称

Tid:教师编号


SC(Sid,Cid,score)成绩表

Sid:学号

Cid:课程编号

score:成绩


Teacher(Tid,Tname)教师表

Tid:教师编号:

Tname:教师名字


学生表数据:

01,zhaolei,1990-01-01,nan

02,qiandian,1990-12-21,nan

03,sunfeng,1990-05-20,nv

04,liyun,1990-08-06,nan

05,zhoumei,1991-12-01,nv

06,wulan,1992-03-01,nv

07,zhengzhu,1989-07-01,nv

08,wangju,1990-01-20,nv


课程表数据:

01,yuwen,02

02,shuxue,01

03,yingyu,03


教师表数据:

01,zhangsan

02,lisi

03,wangwu


成绩表数据:

01,01,80

01,02,90

01,03,99

02,01,70

02,02,60

02,03,80

03,01,80

03,02,80

03,03,80

04,01,50

04,02,30

04,03,20

05,01,76

05,02,87

06,01,31

06,03,34

07,02,89

07,03,98

提示:有些题目中wangju同学很特殊别漏掉


1. 创实验背景下的四个表,并映射成功(结构化数据自己做,可用vim也可在windows下创建好后上传)

  • 创建相关表
--创建学生表
create table Student(
Sid int,
    Sname string,
    Sbirth date,
    Ssex string
)
row format delimited
fields terminated by ',';

--创建课程表
create table Course(
Cid int,
    Cname string,
    Tid int
)
row format delimited
fields terminated by ',';

--创建成绩表
create table SC(
Sid int,
Cid int,
score int 
)
row format delimited
fields terminated by ',';

--创建教师表
create table Teacher(
Tid int,
    Tname string
)
row format delimited
fields terminated by ',';

image-20210707090617448

  • 导入数据至表中
load data local inpath "/root/hivedata/任务四-数据/学生表.txt" into table darcy.Student;
load data local inpath "/root/hivedata/任务四-数据/课程表.txt" into table darcy.course;
load data local inpath "/root/hivedata/任务四-数据/成绩表.txt" into table darcy.SC;
load data local inpath "/root/hivedata/任务四-数据/教师表.txt" into table darcy.Teacher;

image-20210707091027500

2. 查询四个表,检验是否映射成功

select * from Student;
select * from Course;
select * from SC;
select * from Teacher;

image-20210707091601340

3. 查询01课程比02课程成绩高的所有学生的学号

select a.Sid,a.score,b.score from 
(select * from SC where SC.Cid=01) a, (select * from SC where SC.Cid=02) b
where a.Sid=b.Sid and a.score>b.score;

image-20210707173044899

4. 查询平均成绩大于60分的同学的学号和平均成绩

select Sid, avg(score) avg_score from SC group by Sid having avg(score)>60;

image-20210707104502558

5. 查询所有同学的学号、姓名、选课数、总成绩

Select stu.Sid,stu.Sname,count(c.Cid) course_nums, sum(c.Score) sum_score from Student stu left join SC c on stu.Sid=c.Sid
group by stu.Sid,stu.Sname;

image-20210707150018146

6. 查询"li"姓老师的数量

select count(Tid) from teacher where Tname like 'li%';

image-20210707093508675

7. 查询学过"zhangsan"授课的同学的信息

select st.* from student st 
left join sc on sc.Sid=st.Sid 
left join course c on c.Cid=sc.Cid
left join teacher t on t.Tid=c.Tid
where t.Tname="zhangsan";

image-20210707100652858

8. 查询没学过"zhangsan"老师授课的同学的信息

select s.* from student s where s.Sid NOT IN(
select 
st.Sid
from student st
left join sc ON sc.Sid=st.Sid
left join course c ON c.Cid=sc.Cid
left join teacher t ON t.Tid=c.Tid
where t.Tname="zhangsan"
);

image-20210707102549941

9. 查询学过编号为"01"并且也学过编号为"02"的课程的同学的信息

--法一
select a.* from Student a,SC b,SC c
where a.Sid=b.Sid and a.Sid=c.Sid 
and b.Cid=01 and c.Cid=02;

image-20210707160231304

--法二
select s.*,sc1.score,sc2.score from student s
left join (select * from sc where cid = '01') sc1 on s.sid = sc1.sid
left join (select * from sc where cid = '02') sc2 on s.sid = sc2.sid
where sc1.cid = '01' and sc2.cid = '02';

image-20210707162750005

10. 查询学过编号为"01"但是没有学过编号为"02"的课程的同学的信息

select s.*,sc1.score,sc2.score from student s
left join (select * from sc where cid = '01') sc1 on s.sid = sc1.sid
left join (select * from sc where cid = '02') sc2 on s.sid = sc2.sid
where sc1.cid = '01' and sc2.cid is null;

image-20210707162404168

11. 查询没有学全所有课程的同学的信息(请尝试用不同的思路解题):

select st.sname,st.sid,st.Sbirth from student st left join SC on st.Sid=SC.Sid
group by st.sid,st.sname,st.Sbirth having count(SC.Cid)<3;

image-20210707115832805

12. 查询男生、女生人数:

select Ssex, count(Sid) from student group by Ssex;

image-20210707093940138

13. 查询平均成绩大于等于85的所有学生的学号、姓名和平均成绩:

select st.Sid, st.Sname,avg(SC.score) avg_score from student st full join SC on SC.Sid=st.Sid
group by  st.sid, st.sname having avg_score>85;

image-20210707132229874

14. 求每门课程的学生人数

select cour.Cname, count(SC.Cid) stu_nums from Course cour left join SC on cour.Cid=SC.Cid
group by cour.Cname;

image-20210707132939905

15. 求学生总成绩按照从高到低的顺序排序

select Sid, sum(score) sum_score from SC group by Sid order by sum_score desc;

image-20210707095935869

16. 检索"01"课程分数小于60,按分数降序排列的学生信息

--法一
select stu.Sid, stu.Sname,stu.Sbirth,stu.Ssex,SC.score from Student stu left join SC on stu.Sid=SC.Sid group by stu.Sid, stu.Sname,Stu.Sbirth,SC.Cid,stu.Ssex,SC.score having SC.Cid=01 and SC.score<60 order by SC.score desc;

image-20210707142049406

--法二(简洁)
select stu.*, SC.score from Student stu 
left join SC on SC.Sid=stu.Sid
where SC.Cid=01 and SC.score<60
order by SC.score desc;

image-20210707143945303

17. 查询张老师教的课的平均成绩

select tname,cid,cname,tid,avg(score) avg_score from (select t2.Tname tname, c.*,t1.score score from Course c
left join (select * from SC ) t1 on c.Cid =t1.Cid
left join (select * from Teacher) t2 on c.Tid=t2.Tid) as k
group by tname,cid,cname,tid having tname like 'zhang%';

image-20210707140425998

18. 查询课程不及格学生信息

select c.Cname, info.* from (select stu.*, SC.Cid, SC.score from Student stu 
left join SC on SC.Sid=stu.Sid
where SC.score<60) as info left join Course c on info.Cid=c.Cid;

image-20210707145040537

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
Day 1: 今天是我开始实训的第一天,我们的导师向我们介绍了大数据的基础知识和相关技术。我学习了如何使用Hadoop和Spark进行数据处理和分析。我们还进行了一些基本的编程练习,学习了如何使用Python和Scala编写程序。虽然我已经学过这些知识,但是在实际应用中还是有很多需要掌握的地方。我期待着接下来的几天能够学到更多有用的技能。 Day 2: 今天我们继续学习了数据处理和分析的技术。我们学习了如何使用Pig和Hive进行数据查询和转换。我发现这些工具非常方便,可以快速地处理大量数据。我们还使用了Flume和Kafka来收集和处理实时数据。这些工具非常有用,可以帮助我们实时监控和分析数据。我感到很兴奋,因为我已经开始了解到大数据的无限潜力。 Day 3: 今天我们把重点放在了机器学习和数据挖掘上。我们学习了如何使用Spark MLlib和Scikit-learn来构建和训练机器学习模型。我们还学习了一些基本的数据挖掘算法,如聚类和分类。我发现这些技术非常有趣,因为它们可以从数据中发现隐藏的模式和关系。我期待着在未来的工作中能够应用这些技术来解决实际问题。 Day 4: 今天我们进行了一个实际的项目,我们需要使用大数据技术来分析一堆销售数据。我们使用了Hadoop和Spark来处理数据,使用了Pig和Hive来进行查询和转换。最后,我们使用了机器学习算法来预测未来的销售趋势。这个项目让我学到了很多有用的技能,如如何处理大量数据、如何使用机器学习算法来解决实际问题。 Day 5: 今天是我实训最后一天,我们进行了一个小型比赛,我们需要使用大数据技术来解决一个实际问题。我和我的团队一起工作,我们使用了Hadoop和Spark来处理数据,使用了机器学习算法来预测未来的趋势。最后,我们成功地解决了问题,并获得了第一名的好成绩。这个实训让我学到了很多有用的知识和技能,我感到非常自豪和满足。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值