hdfs简介&hdfs-shell&hdfs-API

最新推荐文章于 2022-07-30 11:04:31 发布

快乐的小小编

最新推荐文章于 2022-07-30 11:04:31 发布

阅读量1.1k

点赞数

分类专栏： hdfs 文章标签： hdfs hdfs框架 hdfs-api

本文链接：https://blog.csdn.net/xiaobianjava/article/details/39697507

版权

hdfs 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

HDFS简介：

HDFS概念：

HDFS(Hadoop Distributed File System)是运行在linux文件系统之上的一个分布式文件系统，是基于流数据模式访问和处理超大文件的需求开发

的，hadoop整合了众多文件系统，在其中有一个综合性的文件系统抽象，它提供了文件系统实现的各类接口，HDFS是这个抽象文件系统的一

个实例。hadoop提供了一个高层的文件系统抽象类org.apache.hadoop.fs.FileSystem，这个抽象类展示了一个分布式文件系统。

HDFS的优点：

1）处理超大文件，可以处理百MB、甚至数百TB大小的文件。

2）流式的访问数据。HDFS的设计建立在更多的相应“一次写入、多次读写”任务的基础上，这意味着一个数据集一旦由数据源生成，就会被

复制分布到不同的存储节点中，然后相应各种数据分析的任务请求。在多数请款下，分析任务都会涉及数据集中的大部分数据，也就是

说，对HDFS来说，请求读取整个数据集要比单独请求一条记录更加高效。

3）运行于在廉价的服务器上。

HDFS的缺点：

1）不适合做低延迟数据访问：如果要处理一些用户要求时间比较短的低延迟应用请求，则HDFS不适合。hdfs是为了处理发数据分析任务的

主要是为达到高效的吞吐量来设计的，所以以高延迟为代价。

改进策略: 可以使用HBase。或者是使用缓存或多master设计可以降低client的数据请求压力，以减少延迟。

2）无法高效存储大量小文件：因为NameNode吧文件系统的元素据放置在内存中，所以文件系统所能容纳的文件数目是由NmaeNode的内存

大小来决定的。还有就是Map task的数量是由splits来决定的，所以用MR处理大量的小文件时，就会产生过多的Map task，线程管理开销

将会增加作业时间。

改进策略：

1.利用hadoop自身提供的SequeneceFile,MapFile,Har等方式归档小文件，这个方法的原理就是把小文件归档起来管理，HBase就是基于词

的。对于这种方法，如果想找回原来的小文件内容，那就必修得知道小文件与归档文件的映射关系。

2.横向扩展hadoop集群

3.多master设计

3)不支持多用户写入以及仁义修改文件：在HDFS的一个文件中只有一个写入者，而且写操作只能在文件末尾完成，即只能执行追加操作。

HDFS的体系架构：

图示;

HDFS是一个主/从（Master/Slave）体系结构，从最终用户的角度来看，它就像传统的文件系统一样，可以通过目录路径对文加紧执行CRUD()操

作。但由于分布式存储的性质，HDFS集群拥有一个NameNode和一些DataNode，NameNode管理文件系统的元素据，DataNode存储实际的数据。

客户端通过同NameNode和DataNode的交互式访问文件系统。客户端联系NameNode以uoqu数据的元数据，而真正的文件I/O操作是直接和DataNode

进行交互的。

1）NameNode ,DataNode ,Client，Secondary

`1.NameNode可以看做是分布式文件系统中的管理者，主要负责管理文件系统的命名空间，集群配置信息和存储快的复制。NmaNode会将文件

文件系统的meta-data存储在内存中，同时也存储一份在磁盘中，这些信息主要包括了文件信息，每一个文件对应的文件块在DataNode的信

息。

2.DataNode是文件存储的基本单元，他将block存储在本地文件系统中，保存了block的mete-data，同时通过心跳机制周期性将所有存在的Block

信息发送给NameNode.

3.Client就是需要获取分布式文件系统文件的应用程序。

2）文件写入

1.client向NameNode发起文件写入的请求

2.NameNode根据文件大小和文件配置情况，返回给Clinet它所管理部分的DataNode的信息

3.Client将文件划分为多个block，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。

3）文件读取

1.Client向NameNode发起文件读取的请求

2.Namenode返回文件存储的DataNode的信息

3.Client读取文件信息

元数据的维护：

1）元数据节点NameNode:

1.是整个文件系统的管理节点。它维护者这个文件系统的文件目录树，文件/目录的元信息和每个文件对应的数据块列表。接收

用户的请求。

元数据的存储细节：

元数据节点上存储的文件有（文件都是存储在linux文件系统中）：

a.fsimage:元数据的镜像文件，存储一段时间内的NameNode内存元数据信息

b.edits：日志操作文件，记录文件的读写操作以及文件的元数据描述信息等

c.fstime：保存最近一次checkpoint的时间

2）数据节点DataNode是文件系统真正存储文件的节点

1.客户端或者元数据节点可以向数据节点请求写入或者读出数据块。

2.其周期性的向元数据节点汇报存储的数据块信息

3）从元数据节点SecondaryNameNode

HA的一个解决方案。不支持热备。执行过程：从NameNode上下载元数据信息（fsimage,edits），然后把两者合并，生成新的fsimage,在本地保存，

并将其发送到NameNode，替换旧的fsiamge.默认安装在NameNode节点上，但不推荐。

4）文件系统命名空间镜像文件及修改日志过程

1.NameNode始终在内存中保存metadata，用于处理“读请求”

2.到有“写请求”到来时，namenode会首先写日志到edits中，日志内容包括本次对文件系统的操作以及数据的元数据信息等，

操作成功返回时，才会修改保存元数据的内存（metadata），并且从客户端返回。

3.上述操作完成时，并不会同步元数据信息到fsimage，fsiamge并不是随时与内存中的metadata保持一致，而是每隔一段时间通过合并

edits文件来跟新内容。 Secondary namenode就是用来合并fsimage和edits文件来更新NameNode的metedata的，更新的过程叫checkpoint

5)checkpoint的执行流程：

1.SecondaryNameNode通知元数据节点（NameNode）生成新的日志文件，以后的日志文件都写到新的日志文件中，

原因是防止在ckeckpoint的过程中， client 会有新的写请求

2. SecondaryNameNode通过http协议从NameNode中获得fsimage文件以及就得日志文件

3. SecondaryNameNode将fsiamge文件和edits日志文件加载到内存中，合并成新的fsimage文件

4. SecondaryNameNode将新的fsiamge用http传回给NameNode

5. SecondaryNameNode 可以将旧的fsimage文件及旧的日志文件，换为新的fsimage文件和新的日志文件(第一步生成的)，然后更新fstime文件，写入此

checkpoint的时间。

6）.这样元数据节点中的fsimage文件保存了最新的checkpoint的元数据信息，日志文件也重新开始，不会变的很大了

7).checkpoint的时机：

1.fs.checkpoint.period 指定两次checkpoint的最大时间间隔，默认为3600秒

2.fs.checkpoint.size 规定edits文件的最大值，一旦超过这个值则强制checkpoint，不管是否到最大值时间结案个。默认大小事63M

HDFS shell命令

HDFS的常用命令：

-du(s) <path> //显示目录中所有文件大小

-count[-q] <path> //显示目录中文件数量

-mv <src> <dst> //移动多个文件到目标目录

-cp <src> <dst> //复制多个文件到目标目录

-rm(r) //删除文件(夹)

-put <localsrc> <dst> //本地文件复制到hdfs

-copyFromLocal //同put

-moveFromLocal //从本地文件移动到hdfs

-get [-ignoreCrc] <src> <localdst> //复制文件到本地，可以忽略crc校验

-getmerge <src> <localdst> //将源目录中的所有文件排序合并到一个文件中

-cat <src> //在终端显示文件内容

-text <src> //在终端显示文件内容

-copyToLocal [-ignoreCrc] <src> <localdst> //复制到本地

-moveToLocal <src> <localdst>

-mkdir <path> //创建文件夹

-touchz <path> //创建一个空文件

hdfs管理与更新命令

hdfs dfs -report 查看HDFS的基本统计信息
hdfs dfs -safemode enter 进入hdfs的安全模式
hdfs dfs -safemode leave 离开hdfs的安全模式

hdfs的安全模式

NameNode在启动时会自动进入安全模式。安全模式是namenode的一种状态，在这个阶段，文件系统不允许有任何的修改。

安全模式的目的是在系统启动时检查各个DataNode上数据块的有效性，同时根据策略对数据块进行必要的复制或者删除，当数据

块最小百分比数满足最小副本数数条件时，会自动退出安全模式。

HDFS API

Hadoop中关于文件操作类基本上全部是在"org.apache.hadoop.fs"包中，这些API能够支持的操作包含：打开文件，读写文件，删除文件等。

Hadoop类库中最终面向用户提供的接口类是FileSystem，该类是个抽象类，只能通过来类的get方法得到具体类。

package cn.itcast.hdfs;

import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.URI;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.junit.Before;
import org.junit.Test;

public class HDFSDemo {
	FileSystem fs = null;
	
	@Before
	public void init() throws Exception{
		//初始化文件系统的对象，第三个参数是指定什么用户来操作
		fs = FileSystem.get(new URI("hdfs://192.168.80.101:9000"), new Configuration(),"root");
	}
	
	/**
	 * 上传文件
	 * @throws Exception
	 */
	@Test
	public void testUplaod() throws Exception{
		FileInputStream in = new FileInputStream("C:/test.log");
		FSDataOutputStream out = fs.create(new Path("/aaa.log"));
		IOUtils.copyBytes(in, out, 4096,true);
	}
	
	/**
	 * 下载文件
	 * @throws Exception
	 */
	@Test
	public void testDown() throws Exception{
		FSDataInputStream in = fs.open(new Path("/aaa.log"));
		FileOutputStream out = new FileOutputStream("c:/bbb.log");
		IOUtils.copyBytes(in, out, 4096, true);
	}
	
	/**
	 * 删除文件
	 * @throws Exception
	 */
	@Test
	public void testDel() throws Exception{
		boolean flag = fs.delete(new Path("/aaa.log"),true);
		System.out.println(flag);
		
		
	}
	
	/**
	 * 创建目录
	 * @throws Exception
	 * @throws IOException
	 */
	@Test
	public void testMKdir() throws Exception, IOException{
		boolean flag = fs.mkdirs(new Path("/d1/d2"));
		System.out.println(flag);
	}
}