HDFS(Hadoop Distributed File System) Hadoop分布式文件系统

最新推荐文章于 2024-05-17 19:36:24 发布

兔子先生i

最新推荐文章于 2024-05-17 19:36:24 发布

阅读量1.7k

点赞数

文章标签： HDFS bigdata hadoop

本文链接：https://blog.csdn.net/ai721207/article/details/80410215

版权

本文介绍了Hadoop分布式文件系统HDFS的特点、工作原理、优缺点以及常用命令。HDFS具有高容错性和适合大数据处理的特性，但也存在低延迟数据访问的不足。其工作原理涉及NameNode、SecondaryNameNode和DataNode，通过写入和读取过程详细阐述数据存储和检索。此外，还讨论了HDFS的文件权限、安全模式及日常操作命令。

摘要由CSDN通过智能技术生成

简介：

HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。
是根据google发表的论文翻版的。论文为GFS（Google File System）Google 文件系统。

HDFS有很多特点:

    ①保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认存3份。
   ②运行在廉价的机器上
   ③适合大数据的处理。多大，多小？HDFS默认会将文件分割成block，64M为一个block。
        然后将block按键值对存储在HDFS上并将键值对的映射存到内存中（namenode）。

如果小文件太多，那内存的负担会很重。

如上图所示，HDFS也是按照Master和Slaver的结构。分NameNode、SecondaryNameNode、

DataNode这几个角色；

NameNode：是Master节点，是管理者，管理数据块映射;处理客户端的读写请求；配置副本策略；管理HDFS的名

称空间：

NameNode保存的metadata包括:

文件ownership和permission
文件包含了block信息
Block保存在那些DataNode节点上（这部分数据并非保存在NameNode磁盘上的，它在DataNode启动时报告给NameNode的，Name接收到之后将这些信息保存在内存中）
NameNode的metadata信息在NameNode启动后加载到内存中
Metadata存储到磁盘上的文件名称为fsimage
Block的位置信息不会保存在fsimage中
Edits文件记录了客户端操作fsimage的日志，对文件的增删改等。
用户对fsimage的操作不会直接更新到fsimage中去，俄日是记录在edits中