HDFS

最新推荐文章于 2023-12-27 18:13:41 发布

晓雨风声

最新推荐文章于 2023-12-27 18:13:41 发布

阅读量167

点赞数

分类专栏：笔记文章标签： hadoop

本文链接：https://blog.csdn.net/qq_46603839/article/details/109744148

版权

笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

对Hadoop生态系统下HDFS的介绍

前言
一、HDFS是什么？
二、对HDFS的具体结构特点简单介绍

前言

一、HDFS是什么？

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分

二、对HDFS的具体结构特点简单介绍

1.特点

硬件故障

硬件故障是常态，而不是异常。整个HDFS系统将由数百或数千个存储着文件数据片段的服务器组成。实际上它里面有非常巨大的组成部分，每一个组成部分都很可能出现故障，这就意味着HDFS里的总是有一些部件是失效的，因此，故障的检测和自动快速恢复是HDFS一个很核心的设计目标。

数据访问

运行在HDFS之上的应用程序必须流式地访问它们的数据集，它不是运行在普通文件系统之上的普通程序。HDFS被设计成适合批量处理的，而不是用户交互式的。重点是在数据吞吐量，而不是数据访问的反应时间，POSIX的很多硬性需求对于HDFS应用都是非必须的，去掉POSIX一小部分关键语义可以获得更好的数据吞吐率。

大数据集

运行在HDFS之上的程序有很大量的数据集。典型的HDFS文件大小是GB到TB的级别。所以，HDFS被调整成支持大文件。它应该提供很高的聚合数据带宽，一个集群中支持数百个节点，一个集群中还应该支持千万级别的文件。

简单一致性模型

大部分的HDFS程序对文件操作需要的是一次写多次读取的操作模式。一个文件一旦创建、写入、关闭之后就不需要修改了。这个假定简单化了数据一致的问题，并使高吞吐量的数据访问变得可能。一个Map-Reduce程序或者网络爬虫程序都可以完美地适合这个模型。
等等。。。。

2.对其结构功能

NameNode（名称节点）

1）元数据信息：数据基本信息、文件名、日期、大小、所有者、存放、路径等
2）元数据保持在内存中
3）在NameNode统一调度下进行数据块的创建、删除和复制等操作
在这里插入图片描述

DataNode（从节点）

1）储存文件内容：数据储存节点，讲述存放到不同的服务器
2）文件内容保存在磁盘上
3）
在这里插入图片描述

块（基本操作单位）

1） HDFS把一个文件分成多个块，以块作为存储单位，为64~128MB

总结

HDFS由一个Namenode、一个Secondary NameNode、若干Datanodes和Client组成
在这里插入图片描述

晓雨风声

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
HDFS

对Hadoop生态系统下HDFS的介绍前言一、HDFS是什么？二、对HDFS的具体结构特点简单介绍1.特点硬件故障数据访问大数据集简单一致性模型2.对其结构功能NameNode（名称节点）DataNode（从节点）块（基本操作单位）总结前言一、HDFS是什么？Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件
复制链接

扫一扫