目录
概览
-
可扩展的分布式文件系统
-
将数据以节点形式分布在本地磁盘上
-
高度容错:可以使用低成本商业硬件
-
数以千计的节点:需要处理节点或硬盘的failure
-
轻量级
-
高流通量
Approach:
- 一致性模型:写一次读多次
- 数据复制:可以处理硬件failure
- 将计算放在数据附近
- 放宽一部分POSIX约束,来实现流式读取文件系统数据的目的。
可移植操作系统接口(英语:Portable Operating System Interface,缩写为POSIX)是IEEE为要在各种UNIX操作系统上运行软件,而定义API的一系列互相关联的标准的总称。什么是POSIX? - 问答 - 云+社区 - 腾讯云 (tencent.com)
- 单个NameNode:管理文件系统的命名空间以及用户访问文件的规范,追踪情况
- 多个DataNode:一般每个节点有一个DataNode。管理存储、为用户提供读写request,数据块的增删改
性能范围
- 给定文件大小决定block的数量
- 受块大小影响的关键HDFS和系统组件
块大小
- 默认为64MB
- 10GB文件会被分为: