HDFS写入数据及创建目录

本文详细介绍了Hadoop HDFS如何写入数据,包括使用FileSystem的create方法创建文件并指定参数,以及如何利用FSDataOutputStream对象进行数据写入。同时,讨论了append方法用于文件追加操作及其在不同文件系统中的支持情况。此外,还讲解了FileSystem的mkdirs方法用于创建目录,以及其自动创建父目录的特性。
摘要由CSDN通过智能技术生成

FileSystem类有一系列新建文件的方法。最简单的方法就是给准备建的文件指定一个Path对象,然后返回一个用于写入数据的输出流:public FSDataOutputStream create(Path f) throws IOException 此方法有多个重载版本,允许我们指定是否需要强制覆盖现有的文件、文件备份数量、写入文件时所用缓冲区大小、文件块大小、以及文件权限。

create()方法能够为需要写入且当前不存在的文件创建父目录。尽管这样很方便,但有时并不希望这样。因为如果父目录不存在就导致文件写入失败,则应该先调用exists()方法检查父目录是否存在。另一种方案就是使用FileContext,允许你可以控制是否创建父目录。

还有一个重载方法Progessable用于传递回调接口,如此一来,可以把数据写入datanode的进度通知给应用:

package org.apache.hadoop.util;

public interface Progessable{
    public void progress();
}

另一种新建文件的方法就是使用append()方法在一个现有文件末尾追加数据:

public FSDataOutputStream append(Path f) throws IOException

这样的追加操作允许一个write打开文件后在访问该文件的最后偏移量处追加数据。有了这个API,某些应用可以创建无边界文件,例如,应用可以在关闭日志文件之后继续追加日志。该追加操作是可选的,并非所有Hadoop文件系统都实现了该操作。例如,HDFS支持追加,但S3文件系统就不支持。

下面举个例子,将本地文件复制到Hadoop文件系统中。每次Hadoop调用progress()方法时,也就是每次将64KB数据包写入datanode管线后,打印一个时间点来显示整个运行过程。注意,这个操作并不是通过API实现的,因此Hadoop后续版本能否执行该操作,取决于该版本是否修改过上述操作。API只是让我们知道“正在发生什么事情”

代码示例:

public class FileCopyWithProgress{
    public static void main(String[] args) throws Exception{
        String localSrc = args[0];
        String dst = args[1];
        InputStream in = new BufferedInputStream(new FileInputStream(localSrc));

        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(URI.create(dst),conf);
        OutputStream out = fs.create(new Path(dst),new Progressable(){
           public void progress(){
                System.out.print(".");
            } 
        });
        
        IOUtils.copyBytes(in,out,4096,true);
    }
}

典型应用如下:

% hadoop FileCopyWithProgress input/docs/1400-8.txt
hdfs://localhost/user/tom/1400-8.txt
......
......

目前,其他Hadoop文件系统写入文件时均不调用progress()方法。

 

FSDataOutputStream对象

FileSystem实例的create()方法返回FSDataOutputStream对象,与FSDataInputStream类相似,也有一个查询文件当前位置的方法。

package org.apache.hadoop.fs;

public class FSDataOutputStream extends DataOutputStream implements Syncable{
    public long getPos() throws IOException{
        //implementation elided
    }
    //implementation elided
}

但与FSDataInputStream类不同的是,FSDataOutputStream类不允许在文件中定位。这是因为HDFS只允许对一个已打开的文件顺序写入,或在有现有文件的末尾追加数据。换句话说,它不支持在除文件末尾之外的其他位置进行写入,因此,写入时定位就没有什么意义。

 

FileSystem创建目录

public boolean mkdirs(Path f) throws IOException

这个方法可以一次性新建所有必要但还没有的父目录,就像java.io.File类的mkdirs方法,如果目录(包括所有父目录)都已经创建成功,则返回true。

通常,我们不需要显式创建一个目录,因为调用create()方法写入文件时会自动创建父目录。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值