【HDFS】介绍

目录

定义

优点

缺点

架构

文件块


定义

HDFS Hadoop Distributed File System ),它是一个文件系统 ,用于存储文件,通过目
录树来定位文件; 其次,它是分布式的 ,由很多服务器联合起来实现其功能,集群中的服务
器有各自的角色。
HDFS 的使用场景:适合一次写入,多次读出的场景。 一个文件经过创建、写入和关闭
之后就不需要改变。

优点

1 )高容错性
2 )适合处理大数据
3 )可 构建在廉价机器上 ,通过多副本机制,提高可靠性。

缺点

1 不适合低延时数据访问 ,比如毫秒级的存储数据,是做不到的。
2 无法高效的对大量小文件进行存储。
3 )不支持并发写入、文件随机修改。
一个文件只能有一个写,不允许多个线程同时写;
仅支持数据 append (追加), 不支持文件的随机修改。

架构

 

 

1 NameNode nn ):就是 Master ,它
是一个主管、管理者。
1 )管理 HDFS 的名称空间;
2 )配置副本策略;
3 )管理数据块( Block )映射信息;
4 )处理客户端读写请求。
2 DataNode :就是 Slave NameNode
下达命令, DataNode 执行实际的操作。
1 )存储实际的数据块;
2 )执行数据块的读 / 写操作。
3 Client :就是客户端。
1 )文件切分。文件上传 HDFS 的时候, Client 将文件切分成一个一个的 Block ,然后进行上传;
2 )与 NameNode 交互,获取文件的位置信息;
3 )与 DataNode 交互,读取或者写入数据;
4 Client 提供一些命令来管理 HDFS ,比如 NameNode 格式化;
5 Client 可以通过一些命令来访问 HDFS ,比如对 HDFS 增删查改操作;
4 Secondary NameNode :并非 NameNode 的热备。当 NameNode 挂掉的时候,它并不
能马上替换 NameNode 并提供服务。
1 )辅助 NameNode ,分担其工作量,比如定期合并 Fsimage Edits ,并推送给 NameNode
2 )在紧急情况下,可辅助恢复 NameNode

文件块

HDFS 中的文件在物理上是分块存储( Block ),块的大小可以通过配置参数
( dfs.blocksize )来规定, 默认大小在 Hadoop2.x/3.x 版本中是 128M 1.x 版本中是 64M
寻址时间为传输时间的 1% 时,则为最佳状态。
思考:为什么块的大小不能设置太小,也不能设置太大?
1 HDFS 的块设置 太小 会增加寻址时间 ,程序一直在找块的开始位置;
2 )如果块设置的 太大 ,从 磁盘传输数据的时间 会明显 大于定位这个块开
始位置所需的时间 。导致程序在处理这块数据时,会非常慢。
总结: HDFS 块的大小设置主要取决于磁盘传输速率。
来源:b站尚硅谷
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

返返返

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值