Haddop,HDFS和MapDeduce简单理论

杰KaMi

于 2020-10-30 14:41:17 发布

阅读量291

点赞数

分类专栏： linux 文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/TheNew_One/article/details/109384915

版权

21 篇文章 0 订阅

订阅专栏

Hadoop

hadoop的文件系统
块 - 文件被分成块存储，默认大小64M，是文件存储处理的逻辑单元
节点
1. nameNode：管理节点，存放文件元数据。文件和数据库的映射表，数据库与数据节点的映射表。
2. dateNode：工作节点，存放数据块。
数据管理策略：
1. 每个数据块3个副本，分布在两个机架内的三个节点。
2. 心跳检测 DataNode定期向NameNode发送心跳信息。
3. 二级NameNode定期同步元素据映像文件和修改日志，NameNode发生故障时，备胎转正。
HDFS读
1. 客户端向NameNode发起读写请求，NameNode查询元数据。
2. DataNode读取Blocks
HDFS写
1. 客户端文件拆分为Bolcks ，通知NameNode找到并返回在线的，有磁盘空间的DataNode
2. 写入DataNode，并复制备份，最后更新元数据。
特点：
1. 数据冗余，实现硬件容错。
2. 流式数据访问，一次写入多次使用，一旦写入无法修改。
3. 适合存储大文件。
4. 适合一次写入多次读取，顺序读写。
5. 不支持多用户并发写相同文件。

分而治之，将一个大任务分成多个小的子任务（map），并行执行后，合并结果（reduce）
运行流程
1. Job & Task ：
  1. JobTracker 作业调度，分配任务，监控任务执行进度。（Reduce端）
  2. TaskTracker 执行任务，汇报任务状态。（Map端）
容错机制
1. 重复执行 4次
2. 推测执行对执行慢的在创建一个同样执行谁快用谁谁慢停谁。

关注

专栏目录