1.join语法有哪三种?
left join(左联接):返回包括左表中的所有记录和右表中联接字段相等的记录
right join(右联接):返回包括右表中的所有记录和左表中联接字段相等的记录
inner join(等值联接):只返回两个表联接字段相等的行
2.谈谈你对left join的理解?
left join(左联接):返回包括左表中的所有记录和右表中联接字段相等的记录
3.谈谈对子表的理解
任何的查询结果都可以作为子表,相当于临时表,或者缓存。
4.谈谈group by需要注意什么?
group by 后面跟的是分组的条件
如果要以sal_id为分组条件,可以写为group by sal_id
如果有多重分组条件,只需要在后面添加筛选条件即可。
5.聚合函数有哪些?
1 count : 行数
2 sum : 总和 (求总和)
3 avg : 平均值
4 max 最大值
5 min : 最小值
6.order by默认是什么排序
不是 默认asc 升序
7.union 和union all什么区别
union: 去重
union all :不去重
8.having一般是和什么语法一起出现
group by,having是group by特有的过滤语句
9.MySQL的字段类型有哪些
MySQL支持多种类型,大致可以分为三类:数值、日期/时间和字符串(字符)类型。
10.大数据是什么?
大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
大数据平台是为了计算,现今社会所产生的越来越大的数据量。以存储、运算、展现作为目的的平台。
11.hadoop软件有哪三个组件
hdfs mapreduce yarn
12.hdfs mapreduce yarn 分别做什么
存储,计算,调度
13.我们课程所用的hadoop-2.6.0-cdh5.7.0和Apache hadoop-2.6.0是一样吗?
源码是一样的,但cdh可能修复了一些bug,添加了一些新功能,底层都是apache的hadoop
14.hdfs在部署时我们是单机还是伪分布式还是分布式部署?
伪分布式
15. 你们说说看部署需要的环境准备有哪些?
linux系统版本
java 版本
hadoop 版本
主要信息直接官网
16.最后我们要web界面查看的端口号,会不会使用命令查询?端口号多少
端口号是50070,查看端口号先确定namenode的进程,在使用netstat -nlp来查看端口号