HDFS是什么
hdfs是一个分布式文件系统
使用场景
一次写入多次读取,不支持文件的修改
优缺点
- 优点
- 高容错:副本存储策略
- 适合处理大数据(数据量和文件量)
- 成本低:可构建在廉价机器上
- 缺点
- 不适合存储大量小文件
- 不支持修改只能追加
- 不适合低延迟数据访问
组成架构
- NameNode:相当于一本书的目录
- 处理客户端读写请求
- 管理数据块的映射信息
- 管理HDFS的命名空间
- 配置副本策略
- DataNode:
- 执行读写操作
- SecondaryNameNode:
- 辅助NameNode,定期合并镜像文件和日志文件
- 可帮助恢复NameNode
- Client:
- 文件切分
- 和NameNode、DataNode交互
- 提供命令管理、访问HDFS
文件块大小
- Hadoop2.x以后默认是128M
- HDFS的块大小不能太大也不能太小,如果太大磁盘的传输时间就会太大,如果太小寻址时间又会很多
- 文件块大小主要取决于磁盘的传输速率