Hadoop HDFS原理

最新推荐文章于 2022-08-26 23:35:43 发布

Usher_Ou

最新推荐文章于 2022-08-26 23:35:43 发布

阅读量514

点赞数

分类专栏： Big Data 文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/usher_ou/article/details/79178264

版权

HDFS是一个高度容错的分布式文件系统，适用于大规模数据集的应用。它由NameNode（元数据管理）、Secondary NameNode（辅助同步）、DataNode（数据存储）组成。文件被分成块并复制到多台机器，NameNode负责文件操作。HDFS写操作通过pipeline方式在DataNode间复制数据，确保一致性。读操作则从NameNode获取数据块信息并直接从DataNode读取。HDFS提供Rack awareness以优化性能，并使用HDFSShell命令进行交互。

摘要由CSDN通过智能技术生成

HDFS 架构

HDFS

对外部客户机而言，HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件，等等。但是 HDFS 的架构是基于一组特定的节点构建的，这是由它自身的特点决定的。这些节点包括 NameNode（仅一个），它在 HDFS 内部提供元数据服务；DataNode，它为 HDFS 提供存储块。由于仅存在一个 NameNode，因此这是 HDFS 的一个缺点（单点失败）。

存储在 HDFS 中的文件被分成块，然后将这些块复制到多个计算机中（DataNode）。这与传统的 RAID 架构大不相同。块的大小（通常为 64MB）和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。

HDFS和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。