Hadoop学习笔记(二)——MapReduce

本文介绍MapReduce的基本概念及工作流程,包括任务划分、并行处理与结果合并等核心机制。同时探讨Hadoop环境下Job与Task的管理方式,以及如何通过MapTask和ReduceTask实现大数据处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

学习资料

慕课网——Hadoop大数据平台架构与实践–基础篇

MapReduce原理

分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce)。

MapReduce运行流程

基本概念

  • Job & Task
    一个Job分成多个Task
    • MapTask
    • ReduceTask
  • JobTracker
    • 作业调度
    • 分配任务、监控任务执行进度
    • 监控TskTracker的状态
  • TaskTracker
    • 执行任务
    • 汇报任务状态
      部署时TaskTracker一般和HDFS中的DataNode放一起

这里写图片描述

这里写图片描述

MapReduce的容错机制

处理TaskTracker在执行过程中可能发生的宕机、故障。

  • 重复执行,默认4次仍失败,则放弃
  • 推测执行,如果某一个TaskTracker速度很慢,则另开一个TaskTracker与它执行相同的任务,谁先执行完,使用谁的数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

孔天逸

没有钱用,只能写写博客这样子~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值