4.HDFS概述

菠萝橡皮刀

已于 2023-04-20 23:18:27 修改

阅读量443

点赞数

文章标签： hdfs hadoop 大数据

于 2023-04-16 23:18:32 首次发布

本文链接：https://blog.csdn.net/m0_58420188/article/details/130089037

版权

如果说HDFS是存储，则Yarn就是cpu和内存，mapreduce就是程序。

1.HDFS文件块大小

HDFS中的文件在物理.上是分块存储(Block) ，block默认保存3份块的大小可以通过配置参数(dfs blocksize)来规定，默认大小在Hadoop2 .x版本中是128M,老版本中是64M。

解释：块的大小：10ms*100*100M/s = 100M，约等于128M，如图

ps.为什么块的大小不能设置的太小，也不能设置的太大

(1) HDFS的块设置太小，会增加寻址时间，程序一直在找块的开始位置
(2)如果块设置的太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时，会非常慢。
总结: HDFS块的大小设置主要取决于磁盘传输速率

2.HDFS的常用指令

定位到 /opt/module/hadoop-3.1.3文件夹下

1.上传操作

1）-moveFromLocal：从本地剪切粘贴到HDFS

vim shuguo.txt
输入：
shuguo
hadoop fs -moveFromLocal ./shuguo.txt /sanguo

2）-copyFromLocal：从本地文件系统中拷贝文件到HDFS路径去

vim weiguo.txt
输入：
weiguo
hadoop fs -copyFromLocal weiguo.txt /sanguo

3）-put：等同于copyFromLocal，生产环境更习惯用put

vim wuguo.txt
输入：
wuguo
hadoop fs -put ./wuguo.txt /sanguo

4）-appendToFile：追加一个文件到另一个文件末尾

vim liubei.txt
输入：
liubei

hadoop fs -appendToFile liubei.txt /sanguo/shuguo.txt

2.下载操作

1）-copyToLocal：从HDFS拷贝到本地

 hadoop fs -copyToLocal /sanguo/shuguo.txt ./

2）-get：等同于copyToLocal，生产环境更习惯用get

hadoop fs -get /sanguo/shuguo.txt ./shuguo2.txt

3.直接操作

和linux命令完全一样：hadoop fs - 命令

1）-ls: 显示目录信息

hadoop fs -ls /sanguo

2）-cat：显示文件内容

hadoop fs -cat /sanguo/shuguo.txt

3）-chgrp、-chmod、-chown：Linux文件系统中的用法一样，修改文件所属权限

hadoop fs  -chmod 666  /sanguo/shuguo.txt

hadoop fs  -chown  atguigu:atguigu  /sanguo/shuguo.txt

4）-mkdir：创建路径

hadoop fs -mkdir /jinguo

5）-cp：从HDFS的一个路径拷贝到HDFS的另一个路径

hadoop fs -cp /sanguo/shuguo.txt /jinguo

6）-mv：在HDFS目录中移动文件

hadoop fs -mv /sanguo/wuguo.txt /jinguo

7）-tail：显示一个文件的末尾1kb的数据

hadoop fs -tail /jinguo/shuguo.txt

8）-rm：删除文件或文件夹

hadoop fs -rm /sanguo/shuguo.txt

9）-rm -r：递归删除目录及目录里面内容

hadoop fs -rm -r /sanguo

10）-du统计文件夹的大小

hadoop fs -du -s -h /jinguo  #s选项表示计算总和, -h选项表示以恰当的K/M/G单位展示
27  81  /jinguo
 hadoop fs -du  -h /jinguo
14  42  /jinguo/shuguo.txt
7  21  /jinguo/weiguo.txt
6  18  /jinguo/wuguo.tx

3.HDFS读写过程

1.上传过程

1) 客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。

2) NameNode返回是否可以上传。

3) 客户端请求第一个 block上传到哪几个datanode服务器上。

4) NameNode返回3个datanode节点，分别为dn1、dn2、dn3（因为默认是三个副本）

（ps.第二个blk可能就是dn4,dn5,dn6等）

5) 客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。

6) dn1、dn2、dn3逐级应答客户端。

7) 客户端开始往dn1上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位，dn1收到一个packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。

8) 当一个block传输完成之后，客户端再次请求NameNode上传第二个block的服务器。（重复执行3-7步）

ps.结点选择机制

怎么确定dn1,dn2,dn3? - 机架感知

2.下载机制

1) 客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。

2) 挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。

3) DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以packet为单位来做校验）。

4) 客户端以packet为单位接收，先在本地缓存，然后写入目标文件。

3. 2NN工作机制

镜像文件FsImage：元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage(相当于存档)。就这样断电重启的话就会按照元数据重新操作一遍。

编辑日志Edits：当在内存中的元数据更新时，如果同时更新FsImage，就会导致效率过低，因此，引入Edits文件（只进行追加操作，效率很高）。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到Edits中。一旦NameNode节点断电，可以通过FsImage和Edits的合并，合成元数据。

2NN作用：合并Fsimage和Edits,形成新的FsImage,然后返回给NN