大数据技术学习笔记四：HDFS分布式文件系统

最新推荐文章于 2024-07-21 16:17:25 发布

wait me

最新推荐文章于 2024-07-21 16:17:25 发布

阅读量113

点赞数

分类专栏：大数据文章标签：大数据 hadoop

本文链接：https://blog.csdn.net/qq_42079420/article/details/117676373

版权

大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

HDFS是什么？
全称：Hadoop Distribute File System，Hadoop 分布式文件系统）是 Hadoop 核心组
成，是分布式存储服务。
在大数据中，为存储和处理超大规模数据提供所需的扩展能力。是分布式文件系统中的一种；而且使用的是最多的一种
概念：
HDFS的架构简述
典型的Master/Slave结构
往往是NameNode(HA架构会有两个NameNode，联邦机制) +多个DataNode组成；
NameNode是集群的主节点，DataNode是集群的从节点。两者互相合作
分块架构block机制
HDFS的文件在屋里上是分块存储block，块的大小可以通过配置参数规定；Hadoop2.x版本中默认的block大小是128M
命名空间NameSpace
HDFS支持传统的层次性文件组织结构；用户或者程序可以创建目录，然后将文件存在这些目录中。
文件系统名字空间的层次结果和大多数现有的文件系统类似：用户可以增删改，移动文件
Namenode负责维护文件系统的名字空间，任何对文件系统名字空间或属性的修改都会在Namenode中记录;HDFS提供给客户一个抽象的目录树
访问形式：hdfs://namenode的hostname:port/test/input
对应hdfs://linux121:9000/test/input
NameNode元数据管理
将目录结构和文件分块位置信息称为元数据；即NameNode的元数据记录每一个文件所对应的block信息（block的id,以及所在的datanode节点的信息）
DataNode数据存储
文件的各个block的具体存储管理由DataNode节点承担；一个block会有多个DataNode进行存储；DataNode会定时向NameNode进行汇报自己持有的block信息
副本机制
为了容错，文件所有block都会有副本。每个文件的block大小和副本系统都是可以配置的。应用程序可以指定某个文件的副本数目。副本系统可以在文件创建的时候指定，也可以在之后改变，副本数量默认是3个
一次写入，多次读出
HDFS是设计成适应一次写入，多次读出的场景，且不支持文件的随机修改（支持追加，不支持随机更新）
HDFS适合用来做大数据分析的底层存储服务，并不使用用来做网盘等应用（主要是修改不方便，延迟大，网络开销大，成本太高）

HDFS架构
NameNode(nn)集群的管理者Master
（元数据文件名称，大小，副本数，位置等）
负责client的读写请求
维护管理hdfs的名称空间
维护副本策略

客户端：
上传文件到HDFS的时候，负责文件的切分–block；
向DataNode读/写数据；
与namenode交互主要获取文件block的位置信息）
可以用命令管理hdfs或者访问hdfs

datanode：
实际存储block数据
负责block的读写数据
文章内容输出来源：拉钩教育大数据训练营

wait me

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
4
评论
大数据技术学习笔记四：HDFS分布式文件系统

HDFS是什么？全称：Hadoop Distribute File System，Hadoop 分布式文件系统）是 Hadoop 核心组成，是分布式存储服务。在大数据中，为存储和处理超大规模数据提供所需的扩展能力。是分布式文件系统中的一种；而且使用的是最多的一种概念：HDFS的架构典型的Master/Slave结构往往是NameNode(HA架构会欧两个NameNode，联邦机制) +多个DataNode组成；NameNode是集群的主节点，DataNode是集群的从节点。两者互相合作分块
复制链接

扫一扫