1、hadoop操作命令mv 对比copy?
mv 性能更高,copy会改变时间属性,mv不会。
2、操作HDFS有哪几种方式?
JAVA API 、Web UI 、Shell
3、MR的执行流程(yarn的工作流程、作业执行过程)?
客户端提交一个作业,ResourceManager为该作业分配第一个Container,并与对应的NodeManager通信,要求NodeManager在这个Container内启动作业的APPlicationMaster。
APPlicationMaster首先向ResourceManager注册自己,然后便采用轮询的方式通过RPC协议向ResourceManager申请资源。一旦成功便会与对应的NodeManager通信,要求它启动Container来运行Maptask和Reducetask。
NodeManager通过脚本启动任务后,任务会通过RPC协议向APPlicationMaster报告自己的进度和执行情况,客户端可以通过APPlicationMaster来获知任务信息。
任务完成后,APPlicationMaster向ResourceManager注销并关闭自己。
4、yarn的几个重要命令?
yarn application --list 列出任务
yarn application -kill 任务id 杀死任务
yarn application -status 任务id 查看任务状态
5、MR1对比MR2?
MR1 :计算+资源调度 两个进程 JobTracker TaskTracker(Map Task /Reduce Task)
MR2 :计算 写代码打成jar包提交到yarn上运行
6、Reduce任务开始运行时Map任务一定运行完了?
否 有些任务的Map任务和Reduce任务会共同运行的
7、一个MR任务完成,任务输出目录下输出文件有多少个?
一个_SUCCESS文件,表明任务执行成功
一个Reduce任务对应一个输出文件(假设输出文件都小于128MB),Reudce任务数量可以调整
故输出目录下文件个数为Reduce任务的数量加一
8、