大数据之 Hadoop HDFS（Hadoop 分布式文件系统)

水木姚姚

于 2024-02-07 21:00:12 发布

阅读量743

点赞数 11

分类专栏：大数据文章标签： hadoop hdfs 大数据

本文为博主原创文章，未经允许禁止转载。如有问题，欢迎指正。

本文链接：https://blog.csdn.net/2401_82623951/article/details/136072721

版权

大数据专栏收录该内容

1 篇文章

订阅专栏

本文介绍了ApacheHadoop框架及其组成部分，重点讲解了HadoopDistributedFileSystem(HDFS)。HDFS基于Java，采用master-slave架构，由NameNode管理命名空间和执行基本操作，DataNode负责数据存储和备份。此外，文章还提及了HDFS的文件管理、备份策略和部署要求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言：这里主要介绍的是 Apache Hadoop HDFS。Hadoop有很多版本，这里主要介绍的是Apache Hadoop HDFS（分布式文件系统）。

一：Apache Hadoop 概述

Apache Hadoop软件库是一个框架，使用计算机集群分布式处理大数据，并且是开源的。

Apache Hadoop主要包括以下这些模块：

1.Hadoop Common 一个用于支持Hadoop的公共服务模块
2.Hadoop Distributed File System 为应用程序提供高吞吐量的分布式文件系统
3.Hadoop YARN 用于进程调度和管理集群资源
4.Hadoop MapReduce 基于YARN系统，并行处理大数据集

本文主要介绍的是其中的 Hadoop Distributed File System，即Hadoop HDFS（分布式文件系统）。

二：Apache Hadoop HDFS（分布式文件系统）

1.Apache Hadoop HDFS（分布式文件系统）概述

HDFS（分布式文件系统）用的是java语言，采用的是 master/slave体系结构。HDFS（分布式文件系统）包括了客户端，NameNode,DataNode等组成。下面对其中部分内容进行分别介绍。

2.NameNode 和 DataNode

HDFS被设计成运行在廉价的服务器上，可以处理很大的数据集，一台服务器运行NameNade，有很多台服务器运行DataNode。

NameNode管理文件系统命名空间，执行一些操作，像打开，关闭文件和目录等。

一个大文件被分割成很多块，然后存储在DataNode中，客户端从NameNode读取元数据后，可以存储或读取DataNode中的数据。

当然，这里还涉及到被分割文件的数据块备份等，还是比较复杂的。

3.HDFS文件管理

在HDFS中，真正保存数据的是DataNode，NameNode主要保存一些文件的目录信息等。

一个大文件被HDFS分割成很多块，然后存储到不同的DataNode中，还要进行备份，一般备份的默认值是3。文件被分割的大小一般是128MB。当然这些数据一般是可以在配置文件中配置的。

HDFS还提供了很多命令行的命令供我们管理文件系统。

要运行HDFS的话，需要在安装了Java的服务器上。

这是关于Apache Hadoop HDFS的一个简单介绍。先写到这里吧！

以上内容仅供参考，如有不对，请指正。

参考目录：

1.hadoop英文网址

2.hadoop中文网址

2024/02/07 21：00 首次编辑

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。