大数据技术学习笔记四:HDFS分布式文件系统

HDFS是什么?
全称:Hadoop Distribute File System,Hadoop 分布式文件系统)是 Hadoop 核心组
成,是分布式存储服务。
在大数据中,为存储和处理超大规模数据提供所需的扩展能力。是分布式文件系统中的一种;而且使用的是最多的一种
概念:
HDFS的架构简述
典型的Master/Slave结构
往往是NameNode(HA架构会有两个NameNode,联邦机制) +多个DataNode组成;
NameNode是集群的主节点,DataNode是集群的从节点。两者互相合作
分块架构block机制
HDFS的文件在屋里上是分块存储block,块的大小可以通过配置参数规定;Hadoop2.x版本中默认的block大小是128M
命名空间NameSpace
HDFS支持传统的层次性文件组织结构;用户或者程序可以创建目录,然后将文件存在这些目录中。
文件系统名字空间的层次结果和大多数现有的文件系统类似:用户可以增删改,移动文件
Namenode负责维护文件系统的名字空间,任何对文件系统名字空间或属性的修改都会在Namenode中记录;HDFS提供给客户一个抽象的目录树
访问形式:hdfs://namenode的hostname:port/test/input
对应hdfs://linux121:9000/test/input
NameNode元数据管理
将目录结构和文件分块位置信息称为元数据;即NameNode的元数据记录每一个文件所对应的block信息(block的id,以及所在的datanode节点的信息)
DataNode数据存储
文件的各个block的具体存储管理由DataNode节点承担;一个block会有多个DataNode进行存储;DataNode会定时向NameNode进行汇报自己持有的block信息
副本机制
为了容错,文件所有block都会有副本。每个文件的block大小和副本系统都是可以配置的。应用程序可以指定某个文件的副本数目。副本系统可以在文件创建的时候指定,也可以在之后改变,副本数量默认是3个
一次写入,多次读出
HDFS是设计成适应一次写入,多次读出的场景,且不支持文件的随机修改(支持追加,不支持随机更新)
HDFS适合用来做大数据分析的底层存储服务,并不使用用来做网盘等应用(主要是修改不方便,延迟大,网络开销大,成本太高)

HDFS架构
NameNode(nn)集群的管理者Master
(元数据文件名称,大小,副本数,位置等)
负责client的读写请求
维护管理hdfs的名称空间
维护副本策略

客户端:
上传文件到HDFS的时候,负责文件的切分–block;
向DataNode读/写数据;
与namenode交互主要获取文件block的位置信息)
可以用命令管理hdfs或者访问hdfs

datanode:
实际存储block数据
负责block的读写数据
文章内容输出来源:拉钩教育大数据训练营

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wait me

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值