hadoop两个组成部分:hdfs系统和mapreduce并行计算框架
hdfs设计架构
-块(block):固定大小的逻辑单元,hdfs的文件被分成块进行存储,默认值为64MB
-NameNode:管理节点,存放文件元数据。
(1)文件与数据块的映射表
(2)数据库与数据节点的映射表
-DataNode:工作节点,存放数据块
hdfs中文件读写的流程
读:1.客户端(java程序或命令行)向NameNode文件请求读取。
2.NameNode返回数据存储的块信息
3.读取Blocks
hdfs写文件流程
1.客户端拆分文件称blocks,通知NameNode
2.NameNode找到一些可以用的DataNode,返回给客户端
3.客户端写入blocks
4.流水线复制
5.更新元数据,告诉NameNode,保持最新的状态。
Hdfs的特点,与传统的文件管理系统的不同
1.数据冗余,硬件容错
2.流式,一次写入,多次读写,不支持多用户并发写入
3.大的文件