大数据笔记--Hadoop(第二篇)

目录

一、HDFS

1、概述

2、特点

3、基本结构

二、Block

三、NameNode

1、介绍

2、元数据

3、NameNode管理DataNode

4、安全模式

四、DataNode

五、SecondaryNameNode

六、机架感知策略

七、副本放置策略


一、HDFS

1、概述

HDFS(Hadoop Distributed File System - Hadoop分布式文件系统)是Hadoop提供的一套用于进行分布式储的机制

HDFS是Doug Cutting根据Google的论文(GFS)来仿照实现的

2、特点

**能够存储超大文件:**在HDFS集群中,只要节点数量足够多,那么一个文件无论是多大都能够进行存储- HDFS会对文件进行切块处理

**快速的应对和检测故障:**在HDFS集群中,运维人员不需要频繁的监听每一个节点,可以通过监听NameNode来确定其他节点的状态- DataNode会定时的给NameNode来发送心跳

**具有高容错性:**在HDFS中,会自动的对数据来保存多个副本,所以不会因为一个或者几个副本的丢失就导致数据产生丢失

**具有高吞吐量:**吞吐量实际上指的是集群在单位时间内读写的数据总量

可以在相对廉价的机器上来进行横向扩展

**不支持低延迟的访问:**在HDFS集群中,响应速度一般是在秒级别,很难做到在毫秒级别的响应

**不适合存储大量的小文件:**每一个小文件都会产生一条元数据,大量的小文件就会产生大量的元数据。元数据过多,会占用大量内存,同时会导致查询效率变低

**简化的一致性模型:**在HDFS中,允许对文件进行一次写入多次读取,不允许修改,但是允许追加写入

**不支持超强事务甚至不支持事务:**在HDFS中,因为数据量较大,此时不会因为一个或者几个数据块出现问题就导致所有的数据重新写入- 在数据量足够大的前提下,允许出现容错误差

3、基本结构

HDFS本身是一个典型的主从(M/S)结构:主节点是NameNode,从节点是DataNode

HDFS会对上传的文件进行切分处理,切出来的每一个数据块称之为Block

DFS会对上传的文件进行自动的备份。每一个备份称之为是一个副本(replication/replicas)。如果不指定,默认情况下,副本数量为3

HDFS仿照Linux设计了一套文件系统,允许将文件存储到不同的虚拟路径下,同时也设计了一套和Linux一样的权限策略。HDFS的根路径是/

二、Block

1、Block是HDFS中数据存储的基本形式,即上传到HDFS上的数据最终都会以Block的形式落地到DataNode的磁盘上

2、如果不指定,默认情况下,Block的大小是134217728B(即128M)。可以通过dfs.blocksize属性来调节,放在hdfs-site.xml文件中,单位是字节

3、如果一个文件不足一个Block的指定大小,那么这个文件是多大,它所对应的Block就是多大。例如一个文件是70M,那么对应的Block就是70M。属性dfs.blocksize指定的值实际上可以立即为一个Block的最大容量

4、注意,在设计Block大小的时候,Block是维系在DataNode的磁盘上,要考虑Block在磁盘上的寻址时间以及传输时间(写入时间)的比例值。一般而言,当寻址时间是传输时间的1%的时候,效率最高。而计算机在磁盘上的寻址时间大概在10ms左右,那么写入时间就是10ms/0.01=1000ms=1s。考虑到绝大部分的服务器使用的是机械磁盘,机械磁盘的写入速度一般在120MB/s左右,此时一个Block大小是1s*120MB/s=120M左右

5、HDFS会为每一个Block来分配一个唯一的编号BlockID

6、切块的意义

i、能够存储超大文件

ii、能够进行快速备份

三、NameNode

1、介绍

①、NameNode是HDFS中的主(核心)节点。在Hadoop1.X中,NameNode只能有1个,容易存在单点故障;在Hadoop2.X中,NameNode最多允许存在2个;在Hadoop3.X中,不再限制NameNode的数量,也因此在Hadoop3.X的集群中,NameNode不存在单点故障.。

②、NameNode的作用:对外接收请求记录元数据管理DataNode

2、元数据

①、元数据(metadata)用于描述数据的数据(大概可以理解为账本)。在HDFS中,元数据实际上是用于描述文件的一些特质。在HDFS中,将元数据拆分成了很多项,主要包含了以下几项:

a.上传的文件名以及存储的虚拟路径,例如/log/a.log

b.文件对应的上传用户以及用户组

c.文件的权限,例如 -rwxr-xr–

d.文件大小

e.Block大小

f.文件和BlokcID的映射关系

g.BlockID和DataNode的映射关系

h.副本数量等

②、一条元数据大小大概在150B左右

③、元数据是维系在内存以及磁盘中

a.维系在内存中的目的是查询快

b.维系在磁盘中的目的是持久化

④、元数据在磁盘上的存储位置由属性hadoop.tmp.dir来决定,是放在core-site.xml文件中。如果不指定,默认情况下是放在tmp下。

⑤、元数据相关的文件

a.edits:写操作文件,用于记录HDFS的写操作

b.fsimage:元映像文件,存储了NameNode对元数据的序列化形态(大概可以理解为元数据在磁盘上的持久化存储形似)

⑥、当NameNode接收到写操作(命令)的时候会先将这个写操作(命令)记录到edits_inprogress文件中。记录成功之后,NameNode会解析这个命令,然后修改命令内存中的元数据。修改成功之后,会给客户端来返回一个ACK信号表示成功。在这个过程中,会发现,fsimage文件中的元数据并没有发生变化。

⑦、随着时间的推移,edits_inprogress文件中记录的命令会越来越多,同时fsiamge文件中的元数据和内存中的元数据差别也会越来越大。因此,当达到指定条件的时候,edits_inprogress这个文件会产生滚动,滚动生成一个edits文件,同时产生一个新的edits_inprogress文件。新来的写操作会记录到新的edits_inprogress文件中。滚动生成edits文件之后,NameNode会将edits文件中的命令再一一取出,解析后修改fsimage文件中的元数据

⑧、edits_inprogress文件产生滚动大的条件

a. 空间:当edits_inprogress这个文件达到指定大小(默认是40000,即当edits_inprogress文件中记录的元数据条目数达到40000条,可以通过属性dfs.namenode.checkpoint.txns修改,放在hdfs-site.xml文件中)的时候,会自动滚动生成一个edits文件

b. 时间:当距离上一次滚动时间间隔达到指定大小(默认是3600s,可以通过属性dfs.namenode.checkpoint.period来修改,单位是秒,放在hdfs-site.xml文件汇总)的时候,edits_inprogress文件也会产生滚动。

c.重启:当NameNode被重启的时候,会自动触发edits_inprogress文件的滚动

d.强制:可以通过hdfs dfsadmin -rollEdits命令来强制滚动

⑨、查看edits文件:

hdfs oev -i edits_0000000000000000002-0000000000000000009 -o edits.xml

⑩、在HDFS中,会将每一个写操作看作是一个事务,会给这个事务分配一个全局递增的编号,称之为事务id,简写为txid

在HDFS中,会将开始记录日志以及结束记录日志都看作是一个写操作,都会分配一个事务id。因此,每一个edits文件,基本上都是以OP_START_LOG_SEGMENT开头,都是以OP_END_LOG_SEGMENT结尾

⑾、查看fsimage文件:

hdfs oiv -i fsimage_0000000000000000009 -o fsimage.xml -p XML

每一个fsimage文件都会伴随着产生一个.md5文件,这个文件是对fsimage文件进行校验的

⑿、需要注意的是,Hadoop在第一次启动之后的1min的时候,会自动触发一次edits_inprogress文件的滚动,之后就是按照指定的时间间隔来进行滚动

3、NameNode管理DataNode

①、NameNode通过心跳机制来管理DataNode:DataNode会定时(默认是3s,通过属性dfs.heartbeat.interval来决定,单位是秒,放在hdfs-site.xml文件中)给NameNode发送心跳。如果超过指定的时间,NameNode没有收到DataNode的心跳,那么NameNode就会认为这个DataNode已经lost(丢失),此时NameNode会将这个DataNode上的数据复制一份备份到其他节点上来保证整个集群中的副本数量

②、心跳的超时时间是由属性dfs.namenode.heartbeat.recheck-interval来决定。如果不指定,默认是300000,单位是毫秒,即300s=5min。但是在计算超时时间的时候,实际超时时间=2*dfs.namenode.heartbeat.recheck-interval + 10*dfs.heartbeat.interval来决定,所以如果不指定,实际超时时间为2*5min + 10*3s = 10min30s

③、心跳信号主要包含:

clusterid:集群编号

在HDFS中,当NameNode被格式化(hadoop namenode -format)的时候,会自动计算产生一个clusterid。每次NameNode被格式化,都会自动重新计算产生一个新的clusterid

当HDFS集群启动之后,NameNode就会等待DataNode的心跳。当NameNode第一次收到DataNode的心跳之后,会将clusterid在心跳响应中返回给DataNode

当DataNode收到心跳响应之后,会将clusterid获取并且记录到本地的磁盘中,之后DataNode和NameNode之间进行的每一次通信(包括心跳)都会携带这个clusterid

NameNode在收到DataNode的请求之后,会先校验clusterid是否一致,如果不一致,则会放弃这个请求;如果一致,才会处理这个请求

如果NameNode被多次格式化,就会导致DataNode和NameNode之间无法进行通信

当前DataNode的节点状态(预服役、服役、预退役)

当前DataNode上存储的Block的校验信息

4、安全模式

当NameNode被重启之后,自动进入安全模式

在安全模式中,NameNode会先自动触发edits_inprogress文件的滚动,滚动完成之后,会触发fsimage文件的更新。fsiamge文件更新完成之后,NameNode会将fsimage文件中的元数据加载到内存中,加载完成之后,会等待DataNode的心跳

如果没有收到DataNode的心跳,那么说明NameNode被重启过程中,DataNode也出现了故障,此时NameNode就需要将DataNode上的数据备份到其他节点上来保证集群中的副本数量;如果NameNode收到了DataNode的心跳,会校验DataNode上的Block信息。如果校验失败,那么NameNode会试图恢复这个DataNode上的数据,恢复完成之后会再次校验,如果校验失败,则重新恢复重新校验;如果校验成功,则NameNode自动退出安全模式

之所以存在安全模式,实际上是HDFS集群保证数据的完整性

在安全模式中,HDFS集群只能读(下载)不能写(上传)

在实际过程中,如果在合理时间内,HDFS集群依然没有退出安全模式,则说明数据已经产生了不可挽回的丢失,此时需要考虑强制退出安全模式

命令

解释

hdfs dfsadmin -safemode enter

进入安全模式

hdfs dfsadmin -safemode get

查看安全模式状态

hdfs dfsadmin -safemode leave

退出安全模式

四、DataNode

1、DataNode是HDFS的从节点,主要用于存储数据,数据会以Block形式落地到磁盘上

2、数据在磁盘上的存储位置同样由hadoop.tmp.dir属性来决定

3、DataNode会为每一个Block生成一个blk_xxx.meta文件,这个meta文件实际上是blk文件的校验文件

4、DataNode的状态:预服役、服役、预退役、退役、丢失

5、DataNode通过心跳机制向NameNode来注册信息

五、SecondaryNameNode

1、SecondaryNameNode不是NameNode的热备份,但是SecondaryNameNode能够一定程度上对元数据做到备份,但不是全部,SecondaryNameNode主要是负责edits_inprogress文件的滚动和fsimage文件的更新

2、在集群中,如果存在SecondaryNameNode,那么edits_inprogress文件的滚动和fsimage文件的更新是由SecondaryNameNode来完成;如果没有SecondaryNameNode,那么edits_inprogress文件的滚动和fsimage文件的更新就会由NameNode自己来完成

3、到目前为止,HDFS集群只支持两种结构

1个NameNode+1个SecondaryNameNode+n个DataNode

n个NameNode(Hadoop2.X中是2个,Hadoop3.X中是n个,1个Active+多个Standby状态)+n个DataNode

4、在HDFS集群中,NameNode如果只有1个,那么NameNode宕机之后,整个集群就无法对外提供服务,所以必须对NameNode来进行备份,避免单点故障,所以在集群中,要考虑使用上述的第二种方案

六、机架感知策略

1、在HDFS中,机架感知策略默认是不开启的。如果需要开启机架感知策略,那么需要在hadoop-site.xml文件中添加如下配置

<property>

    <name>topology.script.file.name</name>

    <value>path/rackaware.py</value>

</property

2、上述配置的value中,需要指定一个脚本文件的存储路径。脚本文件可以使用Python或者Shell等常见脚本语言来实现

3、在这个脚本中,需要定义一个Map。Map的键是主机名或者IP,Map的值是用户指定的机架名。只要保证值一致,那么就表示值对应的键放在同一个机架上

4、由于这个机架是通过Map映射来完成的,所以本质上是一个逻辑机架,也因此可以将不同物理机架上的节点配置在同一个逻辑机架上。在实际开发过程中,为了方便管理,往往是将同一个物理机架上的节点配置在同一个逻辑机架上

七、副本放置策略

1、在HDFS中,支持多副本策略,这样能够有效的保证数据的可靠性。如果不指定,默认情况下,副本数量为3。通过属性dfs.replication来修改,放在hdfs-site.xml文件中

2、在HDFS中,如果没有开启机架感知策略,那么默认也不会开启副本放置策略,那么此时多个副本是放在相对空闲的节点上

3、如果启用了机架感知策略,那么对应的,HDFS也会启用副本放置策略

第一个副本:如果是集群内上传,则谁上传就放在谁身上;如果是集群外上传,则谁空闲就放在谁身上

第二个副本:放在和第一个副本相同机架的节点上。实际过程中,会考虑将同一个物理机架上的节点配置在同一个逻辑机架上,此时机架内传输会比跨机架传输要快一些

第三个副本:放在和第二个副本不同机架的节点上,保证不会因为一个机架整体出现故障导致数据产生丢失

更多副本:谁空闲放在谁身上

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值