Hadoop的I/O操作

原文地址: https://itweknow.cn/detail?id=58 ,欢迎大家访问。

HDFS的数据完整性

HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和。我们在写入数据的时候最后一个处理的datanode会去验证校验和,如果错误的话会抛出IOException的子异常。且每个datanode都会记录每次验证校验和的日志,这样可以方便我们排查错误发生的时间。datanode还会主动的定期验证存储在该datanode上所有数据的校验和,当发现错误时会向namenode汇报并进行数据修复。

压缩

codec

我们通过实现CompressionCodec接口来描述我们压缩-解压缩算法,CodepressionCodec里有两个方法,分别是createOutputStream(OutputStream out)和createInputStream(InputStream in),前者是对写入输出数据流的数据进行压缩,而后者则是对输入数据流的数据进行解压缩。​一个CodepressionCodec的实现对应着一种压缩-解压缩算法。

压缩格式后缀对应的CompressionCodec实现是否可切分
DEFALATE.deflateorg.apache.hadoop.io.compress​.DefaultCodec
gzip.gzorg.apache.hadoop.io.compress​.GzipCodec
bzip2.bz2org.apache.hadoop.io.compress​.BZip2Codec
LZ4.lz4org.apache.hadoop.io.compress​.Lz4Codec
Snappy.snappyorg.apache.hadoop.io.compress​.SnappyCodec​​​​
通过CompressionCodecFactory推断CompressionCodec

CompressionCodecFactory.getCodec()方法可以根据文件的扩展名来推断要使用那种CompressionCodec的实现。

@Test
public void fileDecompressor() throws IOException {
    FSDataInputStream in = null;
    try {
        CompressionCodecFactory factory = new CompressionCodecFactory(configuration);
        Path inPath = new Path("/test/codec/test.txt.gz");
        CompressionCodec codec = factory.getCodec(inPath);
        in = fs.open(new Path("/test/codec/test.txt.gz"));
        IOUtils.copyBytes(codec.createInputStream(in), System.out, 4096);
    } finally {
        in.close();
    }
}

代码中包含的某些变量的定义我没有粘过来,如果需要测试的话可以戳这里查看完整的代码。

压缩和输入分片

DEFALATE、gzip、bzip2、LZO、LZ4、Snappy几种压缩格式中,只有bzip2是支持切分的。对于大文件来说最好不要使用不支持切分整个文件的压缩格式,因为这么做会失去数据的本地特性,大量的网络传输进而造成MapReduce应用效率低下。​

在MapReduce中使用压缩

如果MapReduce程序的输入文件是压缩的,那么MapReduce程序会使用上面通过CompressionCodecFactory推断CompressionCodec的方式推断出对应的codec,然后再读取文件的时候自动解压缩文件。 如果我们想压缩MapReduce作业的输入数据的话,则还需要进行相应的配置,具体如何配置我会在后面的文章中进行说明,期待吧。​

序列化

序列化指将结构化的对象转化为字节流以便在网络上传输或写到磁盘存储的过程。与之对应的反序列化就是将字节流转换成结构化对象的过程。

Writeable接口

Hadoop使用的是自己的序列化格式Writable,紧凑且速度快,但是对Java之外的其他语言并不是很友好。Hadoop本身提供了很多Writable类,Java的基本类型都有被封装,正对String的Text,BytesWritable,NullWritable,ArrayWritable等等。

  • 实现定制的Writeable
    这里我们定制一个UserWriteable对象,包含了name和address两个属性。
public class UserWriteable implements Writable {

    private String name;

    private String address;

    public String getName() {
        return name;
    }

    public UserWriteable setName(String name) {
        this.name = name;
        return this;
    }

    public String getAddress() {
        return address;
    }

    public UserWriteable setAddress(String address) {
        this.address = address;
        return this;
    }

    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeChars(name);
        dataOutput.writeChars(address);
    }

    public void readFields(DataInput dataInput) throws IOException {
        // 先进先出原则,与write方法对应
        name = dataInput.readLine();
        address = dataInput.readLine();
    }
}
  • write
    • 将对象的属性写入二进制流(DataOutput)。
  • readFields
    • 从二进制流(DataInput)中还原对象属性。
  • 为什么不用Java的序列化机制
    • 该机制与语言密切相关。
    • 太复杂。

转载于:https://my.oschina.net/u/4020900/blog/2992207

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值