HDFS技术之SequenceFile（九）

最新推荐文章于 2023-10-19 15:03:28 发布

RivenDong

最新推荐文章于 2023-10-19 15:03:28 发布

阅读量2.8k

点赞数 7

分类专栏： # HDFS 大数据

本文链接：https://blog.csdn.net/RivenDong/article/details/100676085

版权

文章目录

1. SequenceFile概述
2. SequenceFile优缺点介绍
3. SequenceFile写操作
- 3.1 写操作实现步骤
- 3.2 写操作代码实现
4.SequenceFile读操作
- 4.1 读操作实现步骤
- 4.2 读操作代码实现
5. SequenceFile写操作使用压缩

1. SequenceFile概述

SequenceFile是Hadoop提供的一种对二进制文件的支持，二进制文件直接将<Key, Value>对序列化到文件中。
HDFS文件系统是适合存储大文件的，小文件多的话会对NN造成很大的压力，因为每一个文件都会有一条元数据信息存储在NN上，所以可以通过SequenceFile将小文件合并起来，可以更高效率的存储和计算。
SequenceFile中的key和value可以是任意类型的Writable或者自定义的Writable类型。
SequenceFile文件并不按照其存储的Key进行排序存储，SequenceFile的内部类Writer提供了append功能。
在存储结构上，SequenceFile主要由一个Header后跟多条Record组成，Header主要包含了，key和value的类名，存储压缩算法，用户自定义元数据等信息。此外，还包含了一些同步标识，用于快速定位到记录的边界。每条Record以键值对的方式进行存储，用来表示它的字符数组可以一次解析成：记录的长度、Key的长度、Key值和value值，并且Value值的结构取决于该记录是否被压缩。

2. SequenceFile优缺点介绍

2.1 SequenceFile优点

2.1.1 支持压缩

记录（Record）压缩

记录压缩格式与无压缩格式基本相同，不同的是值字节是用定义在头部的编码器来压缩。

块（Block）压缩

块压缩一次压缩多个记录，因此它比记录压缩更紧凑，而且一般优先选择。当记录的字节数达到最小大小，才会添加到块。该最小值由io.seqfile.compress.blocksize中的属性定义。默认值是1000000字节。格式为记录数、键长度、键、值长度、值。

无压缩类型

如果没有启动压缩（默认设置），那么每个记录就由它的记录长度（字节数）、键的长度、键和值组成，长度字段为4个字节。

下图为SequenceFile内部结构图：
在这里插入图片描述 Record针对压缩，只压缩Value部分不压缩key；Block对Key和Value都压缩。

2.1.2 本地化任务支持

因为文件可以被切分，因此在运行MapReduce任务时数据的本地化情况应该是非常好的，尽可能多地发起Map Task来进行并行处理进而提高作业的执行效率。

2.1.3 难度低

因为Hadoop框架提供API，业务逻辑的修改比较简单。

2.2 SequenceFile缺点

需要一个合并文件的过程，且合并后的文件不方便查看。

3. SequenceFile写操作

3.1 写操作实现步骤

设置Configuration
获取FileSystem
设置文件输出路径
SequenceFile.createWriter()创建SequenceFile.Write写入
调用SequenceFile.Write.append追加写入
关闭流

3.2 写操作代码实现

前面提到过的VM options参数，继续设置上。
在这里插入图片描述
代码实现：

package Sequence;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;

import java.net.URI;


public class SequenceFileWriter {
   
    private static Configuration configuration = new Configuration();
    private static String HDFS_PATH = "hdfs://master002:9000";
    private static String[] data = {
   "a,b,c,d,e,f,g","e,f,g,h,j,k","l,m,n,o,p,q,r,s","t,y,v,w,x,y,z"};

    public static void main(String[] args) throws  Exception {
   
        System.setProperty

最低0.47元/天解锁文章