核心
1 HDFS 系统
1 块
2.NameNode 管理节点 存放文件元数据
1 文件与数据块的映射表
2 数据块与数据节点的映射表
3 DataNode 工作节点 存放数据块
4 HDFS的特点:
1 数据冗余,硬件容错
写一复三,从而解决硬件的容错
2 流式的数据访问
只能存读删,不能修改。
3 储存大数据
小数据的复制,讲会增加NameNode的负载压力
2 MapReduce 框架 : 将一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce)。
1 Job&Task
一个Job会被拆分成多个Task
2 JobTracker
1 作用
1 作业的调度
2 发配任务、监控任务执行进度
3 监控TaskTracker的状态
3 TaskTracker
1 MapTask
2 ReduceTask
3 作用
1 执行任务
2 汇报任务状态
4 容错机制
1 重复执行 :执行4次之后,还是失败的话,将停止执行。
2 推测执行 :待map端算完后,若其中一个节点算的速度特别慢,JobTracker会察觉到,将任务再分配给另一个TaskTracker,两者同时计算,
若某一个先计算完,另一个则停止运算。