hadoop之核心

最新推荐文章于 2024-04-18 12:15:00 发布

月升11

最新推荐文章于 2024-04-18 12:15:00 发布

阅读量177

点赞数

分类专栏：大数据hadoop 文章标签： hadoop hdfs 大数据

本文链接：https://blog.csdn.net/m0_68290271/article/details/125487453

版权

大数据hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

初识NameNode
HDFS体系结构
1.HDFS 支持主从结构，主节点称为 NameNode ，是因为主节点上运行的有 NameNode 进程，NameNode支持多个，目前我们的集群中只配置了一个
2.从节点称为 DataNode ，是因为从节点上面运行DataNode进程，DataNode支持多个，目前我们的集群中有两个
3.HDFS中还包含一个 SecondaryNameNode 进程，但是这并不是第二个NameNode的意思

公司BOSS：NameNode
秘书：SecondaryNameNode
员工：DataNode

NameNode介绍
NameNode就是整个文件系统的管理节点
注意维护整个系统的文件目录树，文件、目录的信息和每个文件对应的数据块列表，并且还负责接收用户的操作请求

文件/目录的信息：表示文件/目录的的一些基本信息，所有者属组修改时间文件大小等信息
每个文件对应的数据块列表：如果一个文件太大，那么在集群中存储的时候会对文件进行切割，这个时候就类似于会给文件分成一块一块的，存储到不同机器上面。所以HDFS还要记录一下一个文件到底被分了多少块，每一块都在什么地方存储着
接收用户的操作请求：其实我们在命令行使用hdfs操作的时候，是需要先和namenode通信才能开
始去操作数据的。

总结：

NameNode主要包括以下文件：
fsimage: 元数据镜像文件，存储某一时刻NameNode内存中的元数据信息，就类似是定时做了一个快照
操作。【这里的元数据信息是指文件目录树、文件/目录的信息、每个文件对应的数据块列表】

edits: 操作日志文件【事务文件】，这里面会实时记录用户的所有操作

seen_txid: 是存放transactionId的文件，format之后是0，它代表的是namenode里面的edits_*文件的尾数,namenode重启的时候，会按照seen_txid的数字，顺序从头edits_0000001~到seen_txid的数字。如果根据对应的seen_txid无法加载到对应的文件，NameNode进程将不会完成启动以保护数据一致性。

VERSION:保存了集群的版本信息

SecondaryNameNode

SecondaryNameNode主要负责定期的把edits文件中的内容合并到fsimage中
这个合并操作称为checkpoint，在合并的时候会对edits中的内容进行转换，生成新的内容保存到
fsimage文件中。
注意：在 NameNode 的 HA 架构中没有 SecondaryNameNode 进程，文件合并操作会由 standbyNameNode负责实现
所以在Hadoop集群中，SecondaryNameNode进程并不是必须的。
Data Node介绍

DataNode是提供真实文件数据的存储服务

针对datanode主要掌握两个概念，一个是block，一个是replication

首先是block

HDFS会按照固定的大小，顺序对文件进行划分并编号，划分好的每一个块称一个Block，HDFS默认Block大小是128MB

Blokc块是HDFS读写数据的基本单位，不管你的文件是文本文件还是视频或者音频文件，针对hdfs而言都是字节。

我们之前上传的一个user.txt文件，他的block信息可以在fsimage文件中看到，也可以在hdfs webui上面看到, 里面有block的id信息,并且也会显示这个数据在哪个节点上面
注意：这个block中的内容可能只是文件的一部分，如果你的文件较大的话，就会分为多个block存储，默认 hadoop3中一个block的大小为128M。根据字节进行截取，截取到128M就是一个block。如果文件大小没有默认的block块大，那最终就只有一个block。

HDFS中，如果一个文件小于一个数据块的大小，那么并不会占用整个数据块的存储空间

size是表示我们上传文件的实际大小，blocksize是指文件的最大块大小。
注意；这个block块是hdfs产生的，如果我们直接把文件上传到这个block文件所在的目录，这个时候hdfs是不识别的，没有用的

副本只有一个作用就是保证数据安全
NameNode总结
注意：block块存放在哪些datanode上，只有datanode自己知道，当集群启动的时候，
datanode会扫描自己节点上面的所有block块信息，然后把节点和这个节点上的所有block块信息
告诉给namenode。这个关系是每次重启集群都会动态加载的【这个其实就是集群为什么数据越
多，启动越慢的原因】

可以理解为namenode维护了两份关系：
第一份关系：file 与block list的关系，对应的关系信息存储在fsimage和edits文件中,当NameNode启动的时候会把文件中的元数据信息加载到内存中

第二份关系：datanode与block的关系，对应的关系主要在集群启动的时候保存在内存中,当DataNode启
动时会把当前节点上的Block信息和节点信息上报NameNode

注意了，刚才我们说了NameNode启动的时候会把文件中的元数据信息加载到内存中，然后每一个文件的元数据信息会占用150字节的内存空间，这个是恒定的，和文件大小没有关系，咱们前面在介绍HDFS的时候说过，
HDFS不适合存储小文件，其实主要原因就在这里，不管是大文件还是小文件，一个文件的元数据信息在NameNode中都会占用150字节，NameNode节点的内存是有限的，所以它的存储能力也是有限的，如果我们存储了一堆都是几KB的小文件，最后发现NameNode的内存占满了，确实存储了很多文件，但是文件的总体大小却很小，这样就失去了HDFS存在的价值

最后，在datanode的数据目录下面的current目录中也有一个VERSION文件
CID那个玩意
namenode不要随便格式化，因为格式化了以后VERSION里面的clusterID会变，但是
datanode的VERSION中的clusterID并没有变，所以就对应不上了。
如果确实要重新格式化的话需要把/data/hadoop_repo数据目录下的内容都清空，全部都重新生成是可以的。

HDFS的回收站
HDFS会为每一个用户创建一个回收站目录：/user/用户名/.Trash/，每一个被用户在Shell命令行删除的
文件/目录，会进入到对应的回收站目录中，在回收站中的数据都有一个生存周期，也就是当回收站中的
文件/目录在一段时间之内没有被用户恢复的话，HDFS就会自动的把这个文件/目录彻底删除，之后，用
户就永远也找不回这个文件/目录了
默认情况下hdfs的回收站是没有开启的，需要通过一个配置来开启，在core-site.xml中添加如下配置，value的单位是分钟，1440分钟表示是一天的生存周期

<property>
 <name>fs.trash.interval</name>
 <value>1440</value>
</property>

在修改配置信息之前先验证一下删除操作，显示的是直接删除掉了

[root@bigdata01 hadoop-3.2.0]# hdfs dfs -rm -r /NOTICE.txt
Deleted /NOTICE.txt

修改回收站配置，先在bigdata01上操作，然后再同步到其它两个节点，先停止集群

[root@bigdata01 hadoop-3.2.0]# sbin/stop-all.sh 
[root@bigdata01 hadoop-3.2.0]# vi etc/hadoop/core-site.xml 
<configuration>
 <property>
 <name>fs.defaultFS</name>
 <value>hdfs://bigdata01:9000</value>
 </property>
 <property>
 <name>hadoop.tmp.dir</name>
 <value>/data/hadoop_repo</value>
 </property>
 <property>
 <name>fs.trash.interval</name>
 <value>1440</value>
 </property>
</configuration>
[root@bigdata01 hadoop-3.2.0]# scp -rq etc/hadoop/core-site.xml bigdata02:/dat
[root@bigdata01 hadoop-3.2.0]# scp -rq etc/hadoop/core-site.xml bigdata03:/dat

启动集群，再执行删除操作

[root@bigdata01 hadoop-3.2.0]# sbin/start-all.sh
[root@bigdata01 hadoop-3.2.0]# hdfs dfs -rm -r /README.txt
2020-04-09 11:43:47,664 INFO fs.TrashPolicyDefault: Moved: 'hdfs://bigdata01:

注意：如果删除的文件过大，超过回收站大小的话会提示删除失败
需要指定参数 -skipTrash ，指定这个参数表示删除的文件不会进回收站

[root@bigdata01 hadoop-3.2.0]# hdfs dfs -rm -r -skipTrash /user.txt
Deleted /user.txt

月升11

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录