Hadoop基础
Hadoop= HDFS+MapReduce
- HDFS:分布存储
- MapReduce:分布计算
HDFS
基本架构: 数据块 NameNode DataNode
NameNode:所有数据块的存储位置信息
DataNode:存放数据块
数据块:Hadoop中数据的存储单元
- 客户端向NameNode发送写请求
- NameNode询问DataNode相关的存储信息并与块大小信息一起返回给Client
- Client同通过2.返回的信息将数据分块并向DataNode指定位置写入数据
- DataNode自动完成两次备份
- DataNode向NameNode发送信息,更新NameNode里的数据
- NameNode通知Client已经存储完成(后面的分块从2开始)
流程
- 客户端向NameNode发送读请求
- NameNode返回Client要求的数据块的位置信息
- Client同通过2.返回的信息访问DataNode相关节点
- DataNode向Client传输信息