1.谈谈你对shuffle的理解
洗牌,介于map和reduce之间的操作,它是将相同的内容放在了一起,再使用reduce计算
2.mr的执行流程,大概分为两大部,请简述
创建application master
任务执行
3.hdfs报告的命令
hdfs dfsadmin -report
4.多台机器数据不平衡,该怎么办
设置带宽,hdfs balancer
./start-balancer.sh
5.检查的命令
hdfs fsck/
6.多个磁盘数据存在不均衡,该怎么办
hdfs disbalancer -plan
7.hadoop fs和什么一样
hadoop dfs
8.默认开启回收站
不开启
9.删除的时候,如果想要跳过回收站,加入什么参数
skipTrash
10.hdfs的写流程是input还是output?
output
FSDataOutputS
11.namenode是干什么的,存储什么
存储属性和BLOCK列表
维护block块和DN的映射关系
12.260M文件,多少块,存储规格是多少
9,260*3
1152?
13.snn多久干活一次?
一个小时
14.启动顺序是什么?
nn dn snn
15.hdfs yarn都属于什么架构
master/slave
16.提交一个文件到hdfs上,假如本节点是DN,请问第一个块写在哪里?
local
17.补充:在企业里,正常是把dn nn这两个进程都部署在同一个机器,请问为什么这样做?
提交执行效率,减少网络负载
数据本地化
18.bin和sbin都是干什么用的
操作命令
启动服务
19.现在的hadoop版本,我们要启动jobtracker,tasktracker么
不,这个是1.x版本
20.谈谈你对container的理
资源抽象化,存储cpu和内存资源,提供内部的maptracker和reducetracker
21.mysql的sql语句,groupby后面一般还有什么么
having
22.加入分组和排序结合,那么这个sql该怎么写/
select * from table group by xxx order by xxx
23.按班级分组,然后按语文,数学,英语总成绩由大到小排序的,只取每个班级的前五名
若泽大数据交流群:671914634