大数据学习笔记(5)--hadoop-HDFS概述以及客户端操作

最新推荐文章于 2022-03-17 19:22:05 发布

qq_43349416

最新推荐文章于 2022-03-17 19:22:05 发布

阅读量495

点赞数 1

分类专栏：大数据学习文章标签：大数据 hadoop hdfs

本文链接：https://blog.csdn.net/qq_43349416/article/details/108937470

版权

大数据学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

一、 HDFS概述

1、HDFS定义

HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

2、HDFS的使用场景

适合一次写入，多次读出的场景，且不支持文件的修改。适合用来做数据分析，并不适合用来做网盘应用。

3、HDFS的组成架构

在这里插入图片描述
1、NameNode：
就是master 是一个主管、管理者

管理HDFS的名称空间
管理副本策略
管理数据块映射信息
处理客户端的读写请求

2、DataNode
就是slave，namenode下达命令，datanode进行实际的操作

存储实际的数据块
实行数据块的读/写操作

3、Client
就是客户端

文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行上传；
与NameNode交互，获取文件的位置信息；
与DataNode交互，读取或者写入数据；
Client提供一些命令来管理HDFS，比如NameNode格式化；
Client可以通过一些命令来访问HDFS，比如对HDFS增删查改操作；

4、Secondary NameNode
并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务

辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode ；
在紧急情况下，可辅助恢复NameNode。

4、HDFS的文件块大小

在这里插入图片描述
hdfs的文件块必须设置的合适，如果文件块设置太小会增加寻址时间，程序一直在找块的开始位置
如果文件块设置的太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间，导致程序处理这块数据会非常慢

HDFS块的大小设置主要取决于磁盘的传输速率

二、HDFS的shell操作

1、启动集群

#在hadoop101上面启动hdfs
[root@hadoop101 hadoop]# sbin/start-dfs.sh
#在hadoop102上面启动yarn
[root@hadoop102 hadoop-2.7.2]# sbin/start-yarn.sh

集群规划

	hadoop101	hadoop102	hadoop103
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

## 2、help命令

[root@hadoop101 hadoop]# hadoop fs -help rm

3、显示目录信息

[root@hadoop101 hadoop]# hadoop fs -ls /

4、mkdir 创建目录

[root@hadoop101 hadoop]# hadoop fs -mkdir -p /sanguo/shuguo

5、-moveFromLocal：从本地剪切粘贴到HDFS

[root@hadoop101 hadoop]# touch kongming.txt
[root@hadoop101 hadoop]# hadoop fs  -moveFromLocal  ./kongming.txt /sanguo/shuguo

官方命令说明

hadoop关于shell命令操作的官方文档

三、HDFS的客户端操作

1、拷贝压缩包解压到win10电脑上面

在这里插入图片描述

2、配置环境变量

HADOOP_HOME
Path

3、创建maven工程，导入依赖

<dependencies>
		<dependency>
			<groupId>junit</groupId>
			<artifactId>junit</artifactId>
			<version>RELEASE</version>
		</dependency>
		<dependency>
			<groupId>org.apache.logging.log4j</groupId>
			<artifactId>log4j-core</artifactId>
			<version>2.8.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-common</artifactId>
			<version>2.7.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-client</artifactId>
			<version>2.7.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-hdfs</artifactId>
			<version>2.7.2</version>
		</dependency>
</dependencies>

4、测试文件下载

@Test
public void testCopyToLocalFile() throws IOException, InterruptedException, URISyntaxException{

		// 1 获取文件系统
		Configuration configuration = new Configuration();
		FileSystem fs = FileSystem.get(new URI("hdfs://hadoop101:9000"), configuration, "root");
		
		// 2 执行下载操作
		// boolean delSrc 指是否将原文件删除
		// Path src 指要下载的文件路径
		// Path dst 指将文件下载到的路径
		// boolean useRawLocalFileSystem 是否开启文件校验
		fs.copyToLocalFile(false, new Path("/banzhang.txt"), new Path("e:/banhua.txt"), true);
		
		// 3 关闭资源
		fs.close();

四、HDFS的数据流

1、写数据流程

在这里插入图片描述

1）客户端通过Distributed
FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。
2）NameNode返回是否可以上传。 -
3）客户端请求第一个 Block上传到哪几个DataNode服务器上。
4）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。
5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
6）dn1、dn2、dn3逐级应答客户端。
7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。
8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

2、读数据流程

在这里插入图片描述

1）客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。
2）挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。
3）DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。
4）客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。

分割线

文章中如果有什么错误的地方，欢迎留言指出，感谢！！！
-----end-----