大数据基础问答09

1.join语法有哪三种?
inner join
left join
right join

2.谈谈你对left join的理解?
以左表数据为主且最全,右表去匹配(on后面的字段)左表,匹配不到就显示null;取得左表(table1)完全记录,即是右表(table2)并无对应匹配记录。

3.谈谈对子表的理解
字表也叫临时表,引用该表的结果作为一个数据

4.谈谈group by需要注意什么?
group by 后面跟着的字段必须与select 之后聚合函数之前的字段一致,如果是多个字段,可以不按顺序!

5.聚合函数有哪些?
聚合函数有:sum、count、avg、max、min等

6.order by默认是什么排序
升序

7.union 和union all什么区别
union是去重复合并
union all是不去重复合并

8.having一般是和什么语法一起出现
having 一般与group by 语法一起出现,跟在group by后面,后面一般跟着聚合函数

9.MySQL的字段类型有哪些
| char | 字符 |-----------------------char(10) abcxxxxxxx 自动补全,定长
| varchar | 字符串 |----------------varchar(10) 变长,abcde 就是5个字符
| int | 整数 |
| float | 单精度 |
| double | 双精度 |
| date | 年月日 |
| timestamp | 年月日 时分秒 |

10.大数据是什么?
来自百度:

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

11.hadoop软件有哪三个组件
(1)hdfs
(2)mapreduce
(3)yarn

12.hdfs mapreduce yarn 分别做什么
(1)hdfs: 存储大数据量的数据| 属于分布式文件系统 ,底层生产必不可少,生产上高级数据存储使用hive/hbase等
(2)mapreduce: 分布式计算系统 | 生产上不常用,因其开发难度高、计算慢(shuffle 磁盘);生产上常用hive sql或者spark来进行分布式计算
(3)yarn: 资源(内存+core)+作业(job)调度管理系统 ,生产上必不可少

13.我们课程所用的hadoop-2.6.0-cdh5.7.0和Apache hadoop-2.6.0是一样吗?
是的
loudera公司将Apache hadoop-2.6.0源代码,修复bug,增加了一些新功能新特性,编译为自己的版本hadoop-2.6.0-cdh5.7.0,本质上无区别

14.hdfs在部署时我们是单机还是伪分布式还是分布式部署?
学习用:伪分布式部署
生产用:分布式部署

15. 你们说说看部署需要的环境准备有哪些?
Required software for Linux include:
Java™ must be installed. Recommended Java versions are described at HadoopJavaVersions.
ssh must be installed and sshd must be running to use the Hadoop scripts that manage remote Hadoop daemons.
(我就不!翻!译)

16.最后我们要web界面查看的端口号,会不会使用命令查询?端口号多少
在hdfs中,有个好用的命令:jps,可以直接查看到hdfs三个主要进程的pid,然后使用查看端口号的命令:netstat -nlp | grep pid
端口号是50070

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值