MR的Uber模式
目标:了解MR的Uber模式的配置及应用
实施
- Spark为什么要比MR要快
- MR慢
- 只有Map和Reduce阶段,每个阶段的结果都必须写入磁盘
- 如果要实现Map1 -> Map2 -> Reduce1 -> Reduce2
- Mapreduce1:Map1
- MapReduce2:Map2 -> Reduce1
- Mapreduce3:Reduce2
- MapReduce程序处理是进程级别:MapTask进程、ReduceTask进程
问题:MR程序运行在YARN上时,有一些轻量级的作业要频繁的申请资源再运行,性能比较差怎么办?
Uber模式
功能:Uber模式下,程序只申请一个AM Container:所有Map Task和Reduce Task,均在这个Container中顺序执行
默认不开启
配置:${HADOOP_HOME}/etc/hadoop/mapred-site.xml
特点
- Uber模式的进程为AM,所有资源的使用必须小于AM进程的资源
- Uber模式条件不满足,不执行Uber模式
- Uber模式,会禁用推测执行机制
Sqoop采集数据格式问题
目标:掌握Sqoop采集数据时的问题
路径
- step1:现象
- step2:问题
- step3:原因
- step4:解决
实施
现象
- step1ÿ