hdfs简介&hdfs-shell&hdfs-API

HDFS简介:

    HDFS概念:

    HDFS(Hadoop Distributed File System)是运行在linux文件系统之上的一个分布式文件系统,是基于流数据模式访问和处理超大文件的需求 开发
     的,hadoop整合了众多文件系统,在其中有一个综合性的文件系统抽象,它提供了文件系统实现的各类接口,HDFS是这个抽象文件系统的一
     个实例。hadoop提供了一个高层的文件系统抽象类org.apache.hadoop.fs.FileSystem,这个抽象类展示了一个分布式文件系统。
    

    HDFS的优点:

    1)处理超大文件,可以处理百MB、甚至数百TB大小的文件。
    2)流式的访问数据。HDFS的设计建立在更多的相应“一次写入、多次读写”任务的基础上,这意味着一个数据集一旦由数据源生成,就会被
           复制分布到不同的存储节点中,然后相应各种数据分析的任务请求。在多数请款下,分析任务都会涉及数据集中的大部分数据,也就是
           说,对HDFS来说,请求读取整个数据集要比单独请求一条记录更加高效。
    3)运行于在廉价的服务器上。

    HDFS的缺点:

    1)不适合做低延迟数据访问:如果要处理一些用户要求时间比较短的低延迟应用请求,则HDFS不适合。hdfs是为了处理发数据分析任务的
          主要是为达到高效的吞吐量来设计的,所以以高延迟为代价。
          改进策略:      可以使用HBase。或者是使用缓存或多master设计可以降低client的数据请求压力,以减少延迟。
    2)无法高效存储大量小文件:因为NameNode吧文件系统的元素据放置在内存中,所以文件系统所能容纳的文件数目是由NmaeNode的内存
           大小来决定的。还有就是Map task的数量是由splits来决定的,所以用MR处理大量的小文件时,就会产生过多的Map task,线程管理开销
          将会增加作业时间。
         改进策略:
         1.利用hadoop自身提供的SequeneceFile,MapFile,Har等方式归档小文件,这个方法的原理就是把小文件归档起来管理,HBase就是基于词
               的。对于这种方法,如果想找回原来的小文件内容,那就必修得知道小文件与归档文件的映射关系。
         2.横向扩展hadoop集群
         3.多master设计
    3)不支持多用户写入以及仁义修改文件:在HDFS的一个文件中只有一个写入者,而且写操作只能在文件末尾完成,即只能执行追加操作。
      

HDFS的体系架构:

    图示;
    
    HDFS是一个主/从(Master/Slave)体系结构,从最终用户的角度来看,它就像传统的文件系统一样,可以通过目录路径对文加紧执行CRUD()操
     作。但由于分布式存储的性质,HDFS集群拥有一个NameNode和一些DataNode,NameNode管理文件系统的元素据,DataNode存储实际的数据。
    客户端通过同NameNode和DataNode的交互式访问文件系统。客户端联系NameNode以uoqu数据的元数据,而真正的文件I/O操作是直接和DataNode
     进行交互的。
    

    1)NameNode    ,DataNode    ,Client,Secondary

         `1.NameNode可以看做是分布式文件系统中的管理者,主要负责管理文件系统的命名空间,集群配置信息和存储快的复制。NmaNode会将文件
              文件系统的meta-data存储在内存中,同时也存储一份在磁盘中,这些信息主要包括了文件信息,每一个文件对应的文件块在DataNode的信                  
               息。     
         2.DataNode是文件存储的基本单元,他将block存储在本地文件系统中,保存了block的mete-data,同时通过心跳机制周期性将所有存在的Block
              信息发送给NameNode.
         3.Client就是需要获取分布式文件系统文件的应用程序。

    2)文件写入

         1.client向NameNode发起文件写入的请求
         2.NameNode根据文件大小和文件配置情况,返回给Clinet它所管理部分的DataNode的信息
         3.Client将文件划分为多个block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

    3)文件读取

         1.Client向NameNode发起文件读取的请求
         2.Namenode返回文件存储的DataNode的信息
         3.Client读取文件信息
    

元数据的维护:

    1)元数据节点NameNode:

              1.是整个文件系统的管理节点。它维护者这个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接收
              用户的请求。
              元数据的存储细节:
                
         元数据节点上存储的文件有(文件都是存储在linux文件系统中):
         a.fsimage:元数据的镜像文件,存储一段时间内的NameNode内存元数据信息
         b.edits:日志操作文件,记录文件的读写操作以及文件的元数据描述信息等
         c.fstime:保存最近一次checkpoint的时间

    2)数据节点DataNode是文件系统真正存储文件的节点

         1.客户端或者元数据节点可以向数据节点请求写入或者读出数据块。
         2.其周期性的向元数据节点汇报存储的数据块信息

    3)从元数据节点SecondaryNameNode

         HA的一个解决方案。不支持热备。执行过程:从NameNode上下载元数据信息(fsimage,edits),然后把两者合并,生成新的fsimage,在本地保存,
         并将其发送到NameNode,替换旧的fsiamge.默认安装在NameNode节点上,但不推荐。

    4)文件系统命名空间镜像文件及修改日志过程

         1.NameNode始终在内存中保存metadata,用于处理“读请求”
         2.到有“写请求”到来时,namenode会首先写日志到edits中,日志内容包括本次对文件系统的操作以及数据的元数据信息等,
              操作成功返回时,才会修改保存元数据的内存(metadata),并且从客户端返回。
         3.上述操作完成时,并不会同步元数据信息到fsimage,fsiamge并不是随时与内存中的metadata保持一致,而是每隔一段时间通过合并
              edits文件来跟新内容。 Secondary namenode就是用来合并fsimage和edits文件来更新NameNode的metedata的,更新的过程叫checkpoint

    5)checkpoint的执行流程:

         1.SecondaryNameNode通知元数据节点(NameNode)生成新的日志文件,以后的日志文件都写到新的日志文件中,
              原因是防止在ckeckpoint的过程中, client 会有新的写请求
         2.  SecondaryNameNode通过http协议从NameNode中获得fsimage文件以及就得日志文件
         3.  SecondaryNameNode将fsiamge文件和edits日志文件加载到内存中,合并成新的fsimage文件
         4.  SecondaryNameNode将新的fsiamge用http传回给NameNode
         5.  SecondaryNameNode 可以将旧的fsimage文件及旧的日志文件,换为新的fsimage文件和新的日志文件(第一步生成的),然后更新fstime文件,写入此        
               checkpoint的时间。

        6).这样元数据节点中的fsimage文件保存了最新的checkpoint的元数据信息,日志文件也重新开始,不会变的很大了

    

    7).checkpoint的时机:

         1.fs.checkpoint.period 指定两次checkpoint的最大时间间隔,默认为3600秒
         2.fs.checkpoint.size 规定edits文件的最大值,一旦超过这个值则强制checkpoint,不管是否到最大值时间结案个。默认大小事63M
    

HDFS shell命令

    HDFS的常用命令:

  -du(s) <path>  //显示目录中所有文件大小
-count[-q] <path>  //显示目录中文件数量
-mv <src> <dst>  //移动多个文件到目标目录
-cp <src> <dst>  //复制多个文件到目标目录
-rm(r)  //删除文件(夹)
-put <localsrc> <dst>  //本地文件复制到hdfs
-copyFromLocal  //同put
-moveFromLocal  //从本地文件移动到hdfs
-get [-ignoreCrc] <src> <localdst>  //复制文件到本地,可以忽略crc校验
-getmerge <src> <localdst>  //将源目录中的所有文件排序合并到一个文件中
-cat <src>  //在终端显示文件内容
-text <src>  //在终端显示文件内容
-copyToLocal [-ignoreCrc] <src> <localdst>  //复制到本地
-moveToLocal <src> <localdst>
-mkdir <path>  //创建文件夹
-touchz <path>  //创建一个空文件

    hdfs管理与更新命令

    hdfs dfs -report 查看HDFS的基本统计信息
    hdfs dfs -safemode enter 进入hdfs的安全模式
    hdfs dfs -safemode leave 离开hdfs的安全模式

    hdfs的安全模式

         NameNode在启动时会自动进入安全模式。安全模式是namenode的一种状态,在这个阶段,文件系统不允许有任何的修改。
         安全模式的目的是在系统启动时检查各个DataNode上数据块的有效性,同时根据策略对数据块进行必要的复制或者删除,当数据
        块最小百分比数满足最小副本数数条件时,会自动退出安全模式。

HDFS API

Hadoop中关于文件操作类基本上全部是在"org.apache.hadoop.fs"包中,这些API能够支持的操作包含:打开文件,读写文件,删除文件等。
Hadoop类库中最终面向用户提供的接口类是FileSystem,该类是个抽象类,只能通过来类的get方法得到具体类。
package cn.itcast.hdfs;

import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.URI;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.junit.Before;
import org.junit.Test;

public class HDFSDemo {
	FileSystem fs = null;
	
	@Before
	public void init() throws Exception{
		//初始化文件系统的对象,第三个参数是指定什么用户来操作
		fs = FileSystem.get(new URI("hdfs://192.168.80.101:9000"), new Configuration(),"root");
	}
	
	/**
	 * 上传文件
	 * @throws Exception
	 */
	@Test
	public void testUplaod() throws Exception{
		FileInputStream in = new FileInputStream("C:/test.log");
		FSDataOutputStream out = fs.create(new Path("/aaa.log"));
		IOUtils.copyBytes(in, out, 4096,true);
	}
	
	/**
	 * 下载文件
	 * @throws Exception
	 */
	@Test
	public void testDown() throws Exception{
		FSDataInputStream in = fs.open(new Path("/aaa.log"));
		FileOutputStream out = new FileOutputStream("c:/bbb.log");
		IOUtils.copyBytes(in, out, 4096, true);
	}
	
	/**
	 * 删除文件
	 * @throws Exception
	 */
	@Test
	public void testDel() throws Exception{
		boolean flag = fs.delete(new Path("/aaa.log"),true);
		System.out.println(flag);
		
		
	}
	
	/**
	 * 创建目录
	 * @throws Exception
	 * @throws IOException
	 */
	@Test
	public void testMKdir() throws Exception, IOException{
		boolean flag = fs.mkdirs(new Path("/d1/d2"));
		System.out.println(flag);
	}
}



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值