分布式存储基石：HDFS

最新推荐文章于 2024-04-17 08:25:40 发布

DK_ing

最新推荐文章于 2024-04-17 08:25:40 发布

阅读量173

点赞数

分类专栏： # 大数据——Hadoop理论

本文链接：https://blog.csdn.net/DK_ing/article/details/99635366

版权

1 篇文章 0 订阅

订阅专栏

基本概念

HDFS分布式文件存储系统，是基于Java实现的，是Hadoop最重要的核心组件，支持顺序写入，而非随机定为读写。

HDFS前提和设计目标

数据块
- 文件以块为单位进行切分存储，块通常设置的比较大（最小6M，默认128M）
- 块越大，寻址越快，读取效率越高，但同时由于MapReduce任务也是以块为最小单位来处理，所以太大的块不利于对数据的并行处理
- 一个文件至少占用一个块（逻辑概念）
nameNode与DataNode
- nameNode负责维护整个文件系统的信息，包括：整个文件树，文件的块分布信息，文件系统的元数据，数据复制策略等；
- dataNode存储文件内容，负责文件实际的读写操作，保持与nameNode的通信，同步文件块信息

安全模式：文件系统只接受读数据请求，而不接收删除、修改等变更请求
什么情况下进入：nameNode主节点启动时，HDFS进入安全模式
什么时候退出：系统达到安全标准时，HDFS退出安全模式
- dfs.namenode.safemode.min.datanodes：最小可用datanode数量
- dfs.namenode.safemode.threshold-pct：副本数达到最小要求的block占系统总block数的百分比
- dfs.namenode.dafemode.extension：稳定时间
相关命令：
- hdfs dfsadmin -safemode get：查看当前状态
- hdfs dfsadmin -safemode enter：进入安全模式
- hdfs dfsadmin -safemode leave：强制离开安全模式
- hdfs dfsadmin -safemode wait：一直等待直到安全模式结束

HDFS HA高可用性

关注