在这一章里,我们来具体了解一下客户端与HDFS、Namenode和Datanode之间的数据流到底是什么样子的。我们分别从两个方面来了解数据流,一个是客户端从HDFS中读数据,一个是客户端向HDFS中写数据。
一、读流程解析
我们来结合一下代码和流程图来解析一下HDFS的读流程。
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();// 读取配置文件 core-default 和 core-site.xml
FileSystem fs = FileSystem.get(conf);// 获取DistributedFileSystem
// System.out.println(fs.getClass().getName());//确认类型
Path path = new Path("/hyxy/LICENSE.txt");// 创建Path对象,指定要读取的文件
FSDataInputStream fsinput = fs.open(path);// 向Namenode发送读取请求
IOUtils.copyBytes(fsinput, System.out, 4096, false);// 将输入流内内的数据复制到System.out输出流中
IOUtils.closeStream(fsinput);// 关闭流
}
1、获取分布式文件系统对象
在客户端中,我们在读取文件之前要做的工作,必然是通过FileSystem的get()方法,来加载相关配置文件,分析相关参数的值,获取DistributedFileSystem对象。DistributedFileSystem是FileSystem的子类,在加载配置文件时,会读取本地jar包内置的core-default.xml默认配置文件以及本地的core-site.xml,而本地的core-site.xml的fs.defaultFS的值为file:///,所以,还要将你在集群中etc/hadoop/core-site.xml