Hadoop-0.20.0源代码分析(03)

在Hadoop框架源代码org.apache.hadoop.fs包中,都是关于Hadoop文件系统实现的相关类,主要包括文件系统模型的建立,及其在该文件系统定义、实现基本的文件操作。例如给出文件系统抽象,对文件系统上存储的文件执行基本操作进行抽象,等等。

在该包中,类的继承关系如下所示:

首先对文件系统最顶层抽象类FileSystem进行源代码的阅读分析。

FileSystem抽象类继承自org.apache.hadoop.conf.Configured配置基类,实现了java.io.Closeable接口,通过这一点,可以了解到,FileSystem抽象类作为一个文件系统的抽象定义,它是可配置的,也就是说可以通过指定的配置文件中的一些配置项来描述一个文件系统,实际上,最重要的配置类是org.apache.hadoop.conf.Configuration,org.apache.hadoop.conf.Configured中定义的方法就是对org.apache.hadoop.conf.Configuration配置类进行设置或获取,满足一个基于org.apache.hadoop.conf.Configuration配置类的其它类的需要。

FileSystem抽象类定义了文件系统所具有的基本特征和基本操作。首先从该抽象类的属性定义来看,这些属性描述了文件系统的静态特性。该类中定义了如下属性:

Hadoop框架实现的文件系统,从FileSystem的Cache CACHE的含义可以看出,一个文件系统可以管理与它相关的并被缓存的多个文件系统的实例,这一组文件系统协调存储工作,并为Hadoop实现的MapReduce并行计算框架的机制提供便利的存储基础。

文件系统缓存

 FileSystem抽象类定义了一个文件系统缓存Cache CACHE,用来缓存文件系统对象。也就是可能存在多个文件系统对象,从而可知,每个文件系统除了管理基于其上的内容之外,还可能要管理缓存的一组文件系统实例,这要看具体的文件系统是如何实现的。

当然,也可能是在分布式环境中,一个文件系统管理远程的和本地的文件系统实例。

为了能够快速获取到一个存在于缓存中的文件系统对象,Hadoop采用了Hash算法,将文件系统对象以键值对的方式存储到HashMap中,也就是org.apache.hadoop.fs.FileSystem.Cache缓存类定义的map属性,如下所示:

  其中,org.apache.hadoop.fs.FileSystem.Cache.Key是org.apache.hadoop.fs.FileSystem.Cache的一个内部静态类,作为缓存Cache中Map的键,一个Key所包含的内容就是一个URI的信息及其用户名,下面是Key类的属性:

缓存org.apache.hadoop.fs.FileSystem.Cache的Map的值是继承自FileSystem抽象类的子类。可以看出,可以通过一个合法的URI信息与用户名快速获取到缓存中存在的一个文件系统的对象,从而能够获取到指定文件系统中文件信息。该缓存类提供了3个基本的操作,如下所示:

文件系统统计信息

上面statisticsTable是一个IdentityHashMap<Class<? extends FileSystem>, Statistics>,键是继承自FileSystem的Class,值是统计信息Statistics类。为了在一个并行计算环境中进行安全的计算,Statistics类使用了java.util.concurrent.atomic包中的原子变量属性,保证线程安全的原子读写操作的同时,提高并行性能。如下所示:

 其中,bytesRead是从统计数据中读取指定数量的字节,加到当前读取字节数上。同理,bytesRead是基于原子写操作的。

另外一个统计数据属性protected Statistics statistics,是对当前(this)的FileSystem的统计信息实例。该属性是在该文件系统(this)的实例被构造完成之后被初始化的,通过调用initialize方法实现统计信息初始化:

 然后又在initialize方法内部调用了getStatistics方法获取到一个初始化的Statistics实例。在该方法中,在实例化一个Statistics实例以后,需要将它加入到统计信息实例的缓存statisticsTable中,以便能够通过给定的URI快速获取到对应的文件系统的统计信息。

为了便捷操作文件系统的统计信息,Filesystem类实现了几个非常方便的方法,下面只列出方法声明:

这几个方法,都是从statisticsTable中获取到文件系统的统计信息。

文件缓存

属性Set<Path> deleteOnExit是一个文件缓存,它用来收集当前缓存中的文件Path。当文件系统关闭,或者JVM退出的时候,需要将缓存中的文件全部删除。删除缓存文件的方法是在processDeleteOnExit方法中,如下所示:

当一个FileSystem关闭以后,需要将该文件系统对应的Path加入到文件缓存deleteOnExit中,以便在文件系统关闭或JVM退出时,调用processDeleteOnExit方法删除这些文件。向文件缓存中加入一个可能在文件系统关闭或JVM退出时删除的文件,在deleteOnExit方法中实现的。

文件系统抽象

下面,从FileSystem抽象类“抽象”的切面横向了解一个FileSystem定义了哪些基于文件系统的操作,使我们能够知道如果实现一个基于文件系统,需要实现哪些基本操作。如下所示,FileSystem抽象类中定义了12个抽象方法:

上面这些抽象方法应该是一个文件系统应该具备的基本操作,可能根据不同的需要设计一个基于FileSystem抽象类的子类实现类,这个文件系统的实现中,对于某些操作的实现细节可能因为文件系统的特点而不全相同。因此,可以灵活设计你所需要的文件系统。

 

文件操作

在Filesystem文件系统上,与文件相关的操作很多,主要包括文件的创建、读写、重命名、拷贝、删除这几个基本操作。

文件的创建,包括目录的创建和非目录文件的创建,创建目录的方法如下:

Filesystem抽象类没有实现如何创建目录的细节。

另外,还有一个跨文件系统执行创建目录操作的实现:

通过这个方法可以看出,是在当前文件系统(this)中,在另一个文件系统fs中根据指定的权限来创建一个目录,显然这是在分布式地进行目录的远程创建操作。

对于非目录文件的创建,主要是为了读或写操作而打开一个文件,返回文件的流对象,可以进行流式读写与追加。对创建文件的操作,有10个重载的方法都是基于一个create抽象方法的:

还有一个比较特殊的create方法,如下所示:

通过这个方法的参数可以看出,是在当前文件系统(this)中,在另一个文件系统fs中根据指定的权限来创建一个文件,显然这是在分布式地进行文件的远程创建操作。只要该文件系统的的权限满足远程文件系统fs的创建要求,并满足必要的通信条件,就可以执行分布式文件操作。

另外还有两个open方法是用来打开已经存在的文件而且返回文件流对象;一个createNewFile方法内部实现也是调用了create方法。

文件的追加操作,是通过三个重载的append方法实现的,追加写操作成功完成之后,返回org.apache.hadoop.fs.FSDataOutputStream流对象。

文件的重命名操作,是通过抽象方法rename(Path, Path)定义的。

文件的删除操作,是通过delete方法定义的。

本地文件的拷贝操作,主要是通过两组重载的方法实现的。一组是重载的copyFromLocalFile方法:拷贝源文件到目的文件,保留源文件(复制操作);另一组是重载的moveFromLocalFile方法:拷贝源文件到目的文件,删除源文件,这是文件的移动操作(就是剪切操作)。

文件、块、副本

关于文件和块,可以通过Hadoop的架构设计中了解到一些相关信息,一些参数的含义及其设置。

关于块(Block),FileSystem中定义了如下两个方法:

为了保证Hadoop分布式文件系统的可靠性与可用性,使用了文件副本冗余存储和流水线复制技术。那么对于文件副本的设置也是有一定要求的。下面是关于副本的一些参数的操作:

关于文件的状态信息,可以通过一组重载的listStatus方法来获取,文件状态信息通过org.apache.hadoop.fs.FileStatus实体类来统计,该类实现了org.apache.hadoop.io.Writable接口,因此是可序列化的。它主要包含文件的下述信息:

对于块,块是组成文件的基本单位,那么给定一个文件,它就应该具有一个块的列表,可以通过getFileBlockLocations方法获取到一个文件对应的块所在主机的列表、所在文件中的偏移位置等信息,如下:

其中,org.apache.hadoop.fs.BlockLocation类具有一个指定文件的块的信息,它实现了org.apache.hadoop.io.Writable接口,因此是可序列化的,它具有的信息如下所示:

另外,Filesystem类中还定义了globStatus方法,用于根据指定的PathFilter来过滤文件系统中的文件Path,从而返回满足过滤条件的Path的文件状态信息的数组FileStatus[]。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值