10.HDFS的IO流操作

最新推荐文章于 2023-03-18 09:44:01 发布

code1997

最新推荐文章于 2023-03-18 09:44:01 发布

阅读量402

点赞数 1

分类专栏： hadoop 文章标签： hadoop hdfs 大数据

本文链接：https://blog.csdn.net/qq_44739500/article/details/112133978

版权

hadoop 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

HDFS的IO流操作

1 HDFS文件上传

@Test
public void putFileToHDFS() throws URISyntaxException, IOException, InterruptedException {
    //1.获取对象
    Configuration conf = new Configuration();
    FileSystem fs = FileSystem.get(new URI("hdfs://hadoop02:9000"), conf, "code1997");
    //2.获取输入流
    FileInputStream fis = new FileInputStream(new File("e:/hadoop-2.7.2.tar.gz"));
    //3.获取输出流
    FSDataOutputStream fos = fs.create(new Path("/hadoop-2.7.2.tar.gz"));
    //4.流的对拷
    IOUtils.copyBytes(fis,fos,conf);
    //5.关闭资源
    IOUtils.closeStream(fos);
    IOUtils.closeStream(fis);
    fs.close();
}

2 HDFS文件下载

大文件下载下来也是完整的。

@Test
public void getFIleFromHDFS() throws URISyntaxException, IOException, InterruptedException {
    //1.获取对象
    Configuration conf = new Configuration();
    FileSystem fs = FileSystem.get(new URI("hdfs://hadoop02:9000"), conf, "code1997");
    //2.获取输入流
    FSDataInputStream fis = fs.open(new Path("/hadoop-2.7.2.tar.gz"));
    //3.获取输出流
    FileOutputStream fos = new FileOutputStream("e:/hadoop-2.7.2.tar.gz.part");
    //4.流的对拷
    IOUtils.copyBytes(fis, fos, conf);
    //5.关闭资源
    IOUtils.closeStream(fos);
    IOUtils.closeStream(fis);
    fs.close();
}

3 定位读取

3.1 读取第一块

/**
 * 定位读取文件：因为大文件是被分块切分的开的，读取第一块128m。
 */
@Test
public void readFileSeek1() throws URISyntaxException, IOException, InterruptedException {
    //1.获取对象
    Configuration conf = new Configuration();
    FileSystem fs = FileSystem.get(new URI("hdfs://hadoop02:9000"), conf, "code1997");
    //2.获取输入流
    FSDataInputStream fis = fs.open(new Path("/hadoop-2.7.2.tar.gz"));
    //3.获取输出流
    FileOutputStream fos = new FileOutputStream("e:/hadoop-2.7.2.tar.gz.part1");
    //4.流的对拷:只拷贝128M
    byte[] buffer = new byte[1024];
    for (int i = 0; i < 1024 * 128; i++) {
        fis.read(buffer);
        fos.write(buffer);

    }
    //5.关闭资源
    IOUtils.closeStream(fos);
    IOUtils.closeStream(fis);
    fs.close();
}

3.2 读取剩下的

/**
 * 定位读取文件：读取第二块文件
 */
@Test
public void readFileSeek2() throws URISyntaxException, IOException, InterruptedException {
    //1.获取对象
    Configuration conf = new Configuration();
    FileSystem fs = FileSystem.get(new URI("hdfs://hadoop02:9000"), conf, "code1997");
    //2.获取输入流
    FSDataInputStream fis = fs.open(new Path("/hadoop-2.7.2.tar.gz"));
    //3.指定读取的起点：从128m开始进行读取
    fis.seek(1024*1024*128);
    //4.获取输出流
    FileOutputStream fos = new FileOutputStream("e:/hadoop-2.7.2.tar.gz.part2");
    //5.流的对拷:只拷贝128M
    IOUtils.copyBytes(fis, fos, conf);
    //6.关闭资源
    IOUtils.closeStream(fos);
    IOUtils.closeStream(fis);
    fs.close();
}

3.3 文件验证

我们发现下载下来的文件确实是128m和60m的，但是需要我们将他们拼接起来，才知道是不是完整的，我们想要的文件。

win10中使用指令：

type hadoop-2.7.2.tar.gz.part2 >> hadoop-2.7.2.tar.gz.part1

修改part1的后缀：hadoop-2.7.2.tar.gz，然后使用软件查看压缩预览

发现是和之前的软件是同一个。

4 写数据流程

1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。

2）NameNode返回是否可以上传。

3）客户端请求第一个 Block上传到哪几个DataNode服务器上。

4）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。

5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。

6）dn1、dn2、dn3逐级应答客户端。

7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。

6）dn1、dn2、dn3逐级应答客户端。

8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

code1997

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
10.HDFS的IO流操作

HDFS的IO流操作1 HDFS文件上传@Testpublic void putFileToHDFS() throws URISyntaxException, IOException, InterruptedException { //1.获取对象 Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(new URI("hdfs://hadoop02:9000"), conf, "cod
复制链接

扫一扫