大数据之 Hadoop HDFS(Hadoop 分布式文件系统)

本文介绍了ApacheHadoop框架及其组成部分,重点讲解了HadoopDistributedFileSystem(HDFS)。HDFS基于Java,采用master-slave架构,由NameNode管理命名空间和执行基本操作,DataNode负责数据存储和备份。此外,文章还提及了HDFS的文件管理、备份策略和部署要求。
摘要由CSDN通过智能技术生成

引言:这里主要介绍的是 Apache Hadoop HDFS。Hadoop有很多版本,这里主要介绍的是Apache Hadoop HDFS(分布式文件系统)。

一:Apache Hadoop 概述

  Apache Hadoop软件库是一个框架,使用计算机集群分布式处理大数据,并且是开源的。

  Apache Hadoop主要包括以下这些模块:

1.Hadoop Common  一个用于支持Hadoop的公共服务模块
2.Hadoop Distributed File System  为应用程序提供高吞吐量的分布式文件系统
3.Hadoop YARN   用于进程调度和管理集群资源
4.Hadoop MapReduce  基于YARN系统,并行处理大数据集

本文主要介绍的是其中的 Hadoop Distributed File System,即Hadoop HDFS(分布式文件系统)。

二:Apache Hadoop HDFS(分布式文件系统)

1.Apache Hadoop HDFS(分布式文件系统)概述

  HDFS(分布式文件系统)用的是java语言,采用的是 master/slave体系结构。HDFS(分布式文件系统)包括了客户端,NameNode,DataNode等组成。下面对其中部分内容进行分别介绍。

2.NameNode 和 DataNode

   HDFS被设计成运行在廉价的服务器上,可以处理很大的数据集,一台服务器运行NameNade,有很多台服务器运行DataNode。

  NameNode管理文件系统命名空间,执行一些操作,像打开,关闭文件和目录等。

  一个大文件被分割成很多块,然后存储在DataNode中,客户端从NameNode读取元数据后,可以存储或读取DataNode中的数据。

  当然,这里还涉及到被分割文件的数据块备份等,还是比较复杂的。

3.HDFS文件管理

  在HDFS中,真正保存数据的是DataNode,NameNode主要保存一些文件的目录信息等。

  一个大文件被HDFS分割成很多块,然后存储到不同的DataNode中,还要进行备份,一般备份的默认值是3。文件被分割的大小一般是128MB。当然这些数据一般是可以在配置文件中配置的。

  HDFS还提供了很多命令行的命令供我们管理文件系统。

  要运行HDFS的话,需要在安装了Java的服务器上。

这是关于Apache Hadoop HDFS的一个简单介绍。先写到这里吧!

以上内容仅供参考,如有不对,请指正。

参考目录:

1.hadoop英文网址

2.hadoop中文网址

2024/02/07 21:00  首次编辑

  

  • 11
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值