HDFS核心理论学习记录

标题HDFS理论学习第一天

一、HDFS优缺点

1、优点

  • 高容错性:数据会保存多个副本
  • 适合处理大数据:能够处理GB,TB甚至PB级别的数据
  • 能够处理百万规模的数据数据
  • 廉价不吃配置

2、缺点

  • 不适合低延时数据访问,文件存储是放在磁盘中读取会有额外io时间。
  • 无法高效对大量小文件进行存储
  • 大量小文件会增加namenode的元数据信息(块信息和文件目录)会增加寻址时间。
  • 不支持并发写入只能单线程写。且仅支持在文件末尾追加数据不支持修改。
HDFS的容错机制

hdfs是一个分布式的文件系统,用于存储文件,通过目录树来定位文件;

HDFS的容错机制
HDFS 容错指的是集群部分机器宕机了,集群依然可以正常提供服务的能力。HDFS 是具有很好的容错性的分布式存储系统,它利用复制技术实现数据容错能力,数据会被复制多份并存储在集群的不同节点。这样,集群中的某些机器宕机了,数据还可以从其他正常运行的机器获取。如果有一个机器宕机了,HDFS 会在其他可用的机器创建数据的副本,来保证该数据的副本数与集群的副本因子是一致的。

HDFS 如何实现容错
HDFS 通过复制进程来保证容错机制。在文件写入 HDFS 时,HDFS 会首先把文件分割成块,并把这些数据块存储在集群不同机器上,然后在其他机器创建各个块的副本,默认情况下,HDFS 会在其他机器创建3个文件的副本。所以,HDFS 集群任意机器挂了,我们依然能从其他保存数据副本的机器上读取数据,由于这种独特的分布式存储特性,HDFS 给我们提供了更快的文件读写机制。

作者:酸辣鱼籽酱
链接:https://www.nowcoder.com/discuss/353503492612403200?sourceSSR=search
来源:牛客网

二、HDFS组织架构

○ 1.NameNode(NN):存储文件的元数据,如:文件名,文件目录结构,文件属性,处理客户端请求,管理数据块映射信息,配置副本策略。

○ 2.DataNode(DN):在本地文件系统存储文件的块数据,以及块数据的校验和。

○ 3.Secondary NameNode(2NN):每隔一段时间对NameNode进行元数据的备份。

○ 4.Client:就是客户端,负责文件的切分,将文件切分为大小相同的物理块(Block)分布式存储在DataNode中。与NameNode进行交互,获取文件的位置信息,与DataNode进行交互,读取或者写入文件。

○ HDFS是Hadoop架构中的负责完成数据的分布式存储管理的文件系统。非高可用HDFS集群工作的时候会启动三个服务,分别是NameNode 和 DataNode以及SecondaryNameNode 。其中NameNode是HDFS的中心服务,主要维护管理文件系统中的文件的元数据信息,DataNode主要负责存储文件的真实数据块信息,当然在DataNode的数据块信息中也包含一下关于当前数据块的元数据信息 例如 检验值 数据长度 时间戳等。在非高可用HDFS集群中NameNode和DataNode可以理解为是一对多的关系。二者在集群工作中也要保持通信,通常默认3秒钟会检测一下心跳。最后SecondaryNameNode的工作很单一,就是为了给NameNode的元数据印象文件和编辑日志进行合并,并自己也保留一份元数据信息 以防NameNode元数据丢失后有恢复的保障。

HDFS写数据流程

1. 剖析文件写入
在这里插入图片描述
(1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。
(2)NameNode返回是否可以上传。
(3)客户端请求第一个 Block上传到哪几个DataNode服务器上。
(4)NameNode返回3个DataNode节点和输出流对象,分别为dn1、dn2、dn3。
(5)客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。
(6)dn1、dn2、dn3逐级应答客户端,。
(7)客户端开始往dn1上传第一个Block(先从磁盘读取数据放到一个本地内存缓存),以Packet为单位,dn1收到一个Packet就会传给dn2,dn2传给dn3;dn1每传一个packet会放入一个应答队列等待应答,通过ack数据校验包返回数据是否传输完成。
(8)当一个Block传输完成之后,客户端再次请求NameNode上传第二个Block的服务器。(重复执行3-7步)。
成功后 关闭输出流,并向namenode返回文件已上传完毕,等待namenode
确认。因为NameNode已经知道文件由哪些块组成,因此仅需等待最小复制块即可成功返回即可。至此整个流程就完成了。

网络拓扑-节点距离计算

在HDFS写数据的过程中,NameNode会选择距离待上传数据最近距离的DataNode接收数据。那么这个最近距离怎么计算呢?
节点距离:两个节点到达最近的共同祖先的距离总和。

机架感知(副本存储节点选择)

众所周知,数据块会在hdfs上有多个副本默认三分。那么副本是按照什么策略存储呢?
副本1会存储在client所处节点上,如果client不在对应datanode节点则会随机存储在datanode集群。
副本2会存储在另一个机架随机的一个节点,副本3会存储在和副本3相同机架另个节点。

HDFS读数据流程

1.客户端通过distribute file system 向 NamenNode 发送 请求下载文件A 德的请求。
2.namenode接收到后 判断是否在存在该文件,且该用户是否有权限如果有则返回对应文件的元数据信息
3 . 客户端接收到元数据信息后,创建input输入流 去找最近的节点D1去下载block1块数据,如果D1负载过高,那么下载block2块会打到另个d2节点。
4.传输block1数据,以packet为单位,每隔packet占64字节。先写入缓存,然后再写入目标文件

NN和2NN工作机制

NameNode中的元数据信息是存储在哪里的呢?
首先想到的是数据会存储在内存中,但是如果断电那么数据就会丢失,整个集群就会挂掉。
如果存放在磁盘中读取效率又很低,因为有io操作。
为了解决这个问题 hdfs 在磁盘中产生了备份文件fsimage。和历史操作记录文件Edits
fsimage是存储大部分的元数据序列化信息镜像。
edits文件保存元数据最近的操作记录。元数据修改操作信息会首先同步到edits文件中,再同步到,内存中。这么做的原因是如果修改元数据期间断电,数据不会丢失。
所以即便断电 通过fsimage和edits两个文件合并最终也可以得到元数据信息。
如果修改记录过多放到edits文件中会导致文件数据过大,效率降低,开机恢复时间过长出于这个问题,所以需要定期更新合并fsimage和edit文件。如果这个操作由namenode完成,那么namennode工作效率就会降低。
这也是为什么namenode 和 SecondaryNamenode不在一台服务器节点的原因。

总结如下:

一、

  1. 第一次namenode格式化后会产生fsimage和edits文件。如果不是第一次启动则会直接加载fsimage和edits文件到内存
  2. 客户端发送增删改请求
  3. namenode记录操作日志到edits文件
  4. namenode执行增删改更新操作加载结果到内存

二、
在此期间

  1. 2nn会定期向1nn是否需要checkpoint 也就是合并镜像文件。
  2. 如果edit文件过大则会触发合并服务。超过100w大概。
  3. 期间如果有增删改元数据操作 会被滚动在新的edit文件中。旧的edit文件和fsimage会发送到2nn节点,2nn节点负责fsimage文件和edits文件的合并,产生新的fsimage.chkpoint文件发送给1nn。
  4. 1nn接收到后恢复改掉原来的fsimage文件 并改名为fsimage,那么最后fsiamge和新的正在滚动的edits文件 相加就是最新的元数据了。

checkpoint 服务时间再 hdfs-default.xml 中可以配置 默认是1分钟检查一次

HDFS的五大机制
  1. 切片机制:
    hdfs中的实际数据都是以快的形式存储在datanode节点当中,块大小可配置一般根据磁盘io速度配置
  2. 汇报机制
    datanode节点开机启动后会想namenode节点汇报注册。namenode与datanode会有一个心跳机制一般为3妙,块信息也会定时向namenode汇报是否可用默认为6小时。
  3. 心跳检测机制
    datanode会每隔三秒汇报自己的是否可用信息,如果namenode没有收到该信息,datanode节点会继续汇报10次,3S*10=30秒。如果十分钟后还是没有恢复,则datanode节点会被视为宕机状态,当前机器上的数据namenode会找新的datanode节点做备份。‘
  4. 负载均衡
    让集群中所有的节点(服务器)的利用率和副本数尽量都保持一致或在同一个水平线上
    5.副本机制
    默认备份三个副本,如果副本多了会删,少于3会新增。少于三且无法新增则会进入安全模式只能读不能写。

hdfs默认文件块大小为什么是128M,增大或减小有什么影响。

文件块大小可以通过配置文件来修改,至于为什么默认是128M,hadoop1版本默认是64M,2,3版本都是128M。
文件块设置的大小与磁盘传输速度紧密相关,当前普遍寻址时间一般为10ms,磁盘传输速率一般为100M/s,当寻址速率是传输速率的1/100时默认是最佳状态。
如果增大文件块,会导致传输速率缓慢,大量时间浪费在传输文件块,因为文件块信息不一定全部需要
如果减小文件块,会导致寻址时间增加,大量时间用在寻址上。
总之,文件块大小取决于磁盘传输速率。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值