HDFS简介:
HDFS概念:
HDFS(Hadoop Distributed File System)是运行在linux文件系统之上的一个分布式文件系统,是基于流数据模式访问和处理超大文件的需求
开发
的,hadoop整合了众多文件系统,在其中有一个综合性的文件系统抽象,它提供了文件系统实现的各类接口,HDFS是这个抽象文件系统的一
个实例。hadoop提供了一个高层的文件系统抽象类org.apache.hadoop.fs.FileSystem,这个抽象类展示了一个分布式文件系统。
HDFS的优点:
1)处理超大文件,可以处理百MB、甚至数百TB大小的文件。
2)流式的访问数据。HDFS的设计建立在更多的相应“一次写入、多次读写”任务的基础上,这意味着一个数据集一旦由数据源生成,就会被
复制分布到不同的存储节点中,然后相应各种数据分析的任务请求。在多数请款下,分析任务都会涉及数据集中的大部分数据,也就是
说,对HDFS来说,请求读取整个数据集要比单独请求一条记录更加高效。
3)运行于在廉价的服务器上。
HDFS的缺点:
1)不适合做低延迟数据访问:如果要处理一些用户要求时间比较短的低延迟应用请求,则HDFS不适合。hdfs是为了处理发数据分析任务的
主要是为达到高效的吞吐量来设计的,所以以高延迟为代价。
改进策略:
可以使用HBase。或者是使用缓存或多master设计可以降低client的数据请求压力,以减少延迟。
2)无法高效存储大量小文件:因为NameNode吧文件系统的元素据放置在内存中,所以文件系统所能容纳的文件数目是由NmaeNode的内存
大小来决定的。还有就是Map task的数量是由splits来决定的,所以用MR处理大量的小文件时,就会产生过多的Map task,线程管理开销
将会增加作业时间。
改进策略:
1.利用hadoop自身提供的SequeneceFile,MapFile,Har等方式归档小文件,这个方法的原理就是把小文件归档起来管理,HBase就是基于词
的。对于这种方法,如果想找回原来的小文件内容,那就必修得知道小文件与归档文件的映射关系。
2.横向扩展hadoop集群
3.多master设计
3)不支持多用户写入以及仁义修改文件:在HDFS的一个文件中只有一个写入者,而且写操作只能在文件末尾完成,即只能执行追加操作。
HDFS的体系架构:
图示;
HDFS是一个主/从(Master/Slave)体系结构,从最终用户的角度来看,它就像传统的文件系统一样,可以通过目录路径对文加紧执行CRUD()操
作。但由于分布式存储的性质,HDFS集群拥有一个NameNode和一些DataNode,NameNode管理文件系统的元素据,DataNode存储实际的数据。
客户端通过同NameNode和DataNode的交互式访问文件系统。客户端联系NameNode以uoqu数据的元数据,而真正的文件I/O操作是直接和DataNode
进行交互的。
1)NameNode ,DataNode ,Client,Secondary
`1.NameNode可以看做是分布式文件系统中的管理者,主要负责管理文件系统的命名空间,集群配置信息和存储快的复制。NmaNode会将文件
文件系统的meta-data存储在内存中,同时也存储一份在磁盘中,这些信息主要包括了文件信息,每一个文件对应的文件块在DataNode的信
息。
2.DataNode是文件存储的基本单元,他将block存储在本地文件系统中,保存了block的mete-data,同时通过心跳机制周期性将所有存在的Block
信息发送给NameNode.
3.Client就是需要获取分布式文件系统文件的应用程序。
2)文件写入
1.client向NameNode发起文件写入的请求
2.NameNode根据文件大小和文件配置情况,返回给Clinet它所管理部分的DataNode的信息
3.Client将文件划分为多个block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。
3)文件读取
1.Client向NameNode发起文件读取的请求
2.Namenode返回文件存储的DataNode的信息
3.Client读取文件信息
元数据的维护:
1)元数据节点NameNode:
1.是整个文件系统的管理节点。它维护者这个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接收
用户的请求。
元数据的存储细节:
元数据节点上存储的文件有(文件都是存储在linux文件系统中):
a.fsimage:元数据的镜像文件,存储一段时间内的NameNode内存元数据信息
b.edits:日志操作文件,记录文件的读写操作以及文件的元数据描述信息等
c.fstime:保存最近一次checkpoint的时间
2)数据节点DataNode是文件系统真正存储文件的节点
1.客户端或者元数据节点可以向数据节点请求写入或者读出数据块。
2.其周期性的向元数据节点汇报存储的数据块信息
3)从元数据节点SecondaryNameNode
HA的一个解决方案。不支持热备。执行过程:从NameNode上下载元数据信息(fsimage,edits),然后把两者合并,生成新的fsimage,在本地保存,
并将其发送到NameNode,替换旧的fsiamge.默认安装在NameNode节点上,但不推荐。
4)文件系统命名空间镜像文件及修改日志过程
1.NameNode始终在内存中保存metadata,用于处理“读请求”
2.到有“写请求”到来时,namenode会首先写日志到edits中,日志内容包括本次对文件系统的操作以及数据的元数据信息等,
操作成功返回时,才会修改保存元数据的内存(metadata),并且从客户端返回。
3.上述操作完成时,并不会同步元数据信息到fsimage,fsiamge并不是随时与内存中的metadata保持一致,而是每隔一段时间通过合并
edits文件来跟新内容。
Secondary namenode就是用来合并fsimage和edits文件来更新NameNode的metedata的,更新的过程叫checkpoint
5)checkpoint的执行流程:
1.SecondaryNameNode通知元数据节点(NameNode)生成新的日志文件,以后的日志文件都写到新的日志文件中,
原因是防止在ckeckpoint的过程中,
client
会有新的写请求
2.
SecondaryNameNode通过http协议从NameNode中获得fsimage文件以及就得日志文件
3.
SecondaryNameNode将fsiamge文件和edits日志文件加载到内存中,合并成新的fsimage文件
4.
SecondaryNameNode将新的fsiamge用http传回给NameNode
5.
SecondaryNameNode
可以将旧的fsimage文件及旧的日志文件,换为新的fsimage文件和新的日志文件(第一步生成的),然后更新fstime文件,写入此
checkpoint的时间。
6).这样元数据节点中的fsimage文件保存了最新的checkpoint的元数据信息,日志文件也重新开始,不会变的很大了
7).checkpoint的时机:
1.fs.checkpoint.period 指定两次checkpoint的最大时间间隔,默认为3600秒
2.fs.checkpoint.size 规定edits文件的最大值,一旦超过这个值则强制checkpoint,不管是否到最大值时间结案个。默认大小事63M
HDFS shell命令
HDFS的常用命令:
-du(s) <path> //显示目录中所有文件大小-count[-q] <path> //显示目录中文件数量-mv <src> <dst> //移动多个文件到目标目录-cp <src> <dst> //复制多个文件到目标目录-rm(r) //删除文件(夹)-put <localsrc> <dst> //本地文件复制到hdfs-copyFromLocal //同put-moveFromLocal //从本地文件移动到hdfs-get [-ignoreCrc] <src> <localdst> //复制文件到本地,可以忽略crc校验-getmerge <src> <localdst> //将源目录中的所有文件排序合并到一个文件中-cat <src> //在终端显示文件内容-text <src> //在终端显示文件内容-copyToLocal [-ignoreCrc] <src> <localdst> //复制到本地-moveToLocal <src> <localdst>-mkdir <path> //创建文件夹-touchz <path> //创建一个空文件
hdfs管理与更新命令
hdfs dfs -report 查看HDFS的基本统计信息
hdfs dfs -safemode enter 进入hdfs的安全模式
hdfs dfs -safemode leave 离开hdfs的安全模式
hdfs的安全模式
NameNode在启动时会自动进入安全模式。安全模式是namenode的一种状态,在这个阶段,文件系统不允许有任何的修改。
安全模式的目的是在系统启动时检查各个DataNode上数据块的有效性,同时根据策略对数据块进行必要的复制或者删除,当数据
块最小百分比数满足最小副本数数条件时,会自动退出安全模式。
HDFS API
Hadoop中关于文件操作类基本上全部是在"org.apache.hadoop.fs"包中,这些API能够支持的操作包含:打开文件,读写文件,删除文件等。
Hadoop类库中最终面向用户提供的接口类是FileSystem,该类是个抽象类,只能通过来类的get方法得到具体类。
package cn.itcast.hdfs;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.junit.Before;
import org.junit.Test;
public class HDFSDemo {
FileSystem fs = null;
@Before
public void init() throws Exception{
//初始化文件系统的对象,第三个参数是指定什么用户来操作
fs = FileSystem.get(new URI("hdfs://192.168.80.101:9000"), new Configuration(),"root");
}
/**
* 上传文件
* @throws Exception
*/
@Test
public void testUplaod() throws Exception{
FileInputStream in = new FileInputStream("C:/test.log");
FSDataOutputStream out = fs.create(new Path("/aaa.log"));
IOUtils.copyBytes(in, out, 4096,true);
}
/**
* 下载文件
* @throws Exception
*/
@Test
public void testDown() throws Exception{
FSDataInputStream in = fs.open(new Path("/aaa.log"));
FileOutputStream out = new FileOutputStream("c:/bbb.log");
IOUtils.copyBytes(in, out, 4096, true);
}
/**
* 删除文件
* @throws Exception
*/
@Test
public void testDel() throws Exception{
boolean flag = fs.delete(new Path("/aaa.log"),true);
System.out.println(flag);
}
/**
* 创建目录
* @throws Exception
* @throws IOException
*/
@Test
public void testMKdir() throws Exception, IOException{
boolean flag = fs.mkdirs(new Path("/d1/d2"));
System.out.println(flag);
}
}