hadoop中SequenceFile的使用

最新推荐文章于 2024-07-28 16:45:11 发布

H_x

最新推荐文章于 2024-07-28 16:45:11 发布

阅读量1.2k

点赞数 1

分类专栏： hadoop 文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/qq_43650979/article/details/106445925

版权

本文介绍了Hadoop中SequenceFile的使用，包括其存储结构、序列化文件的三种类型及作用。通过示例展示了如何使用SequenceFile封装小文件，以及实现不同查询方式，如整体读取、按key查询和按key读取指定文件内的数据。

摘要由CSDN通过智能技术生成

序列文件 SequenceFile

SequenceFile的每条记录是可序列化的字符数组；
存储结构上，SequenceFile由一个Header后跟多条Record组成；
Header：
包含了Key classname，Value classname，存储压缩算法，用户自定义元数据等信息；还包含了一些同步标识，用于快速定位到记录的边界。
Record:
每条Record以键值对的方式进行存储；记录的长度、Key的长度、Key值和Value值，并且Value值的结构取决于该记录是否被压缩。

序列化文件的3种类型

未压缩
记录(Record)压缩
块(Block)压缩
在这里插入图片描述

SequenceFile的作用

可以作为小文件的容器，封装小文件；
用于存储键值对的二进制文件格式；
支持压缩；
保持可分割（可拆分）（拆分标志）；
支持二进制的键和值；
在HDFS中获得更高的存储效率；
用于链接多个Hadoop作业；

问题描述

1、使用随机数生成以（整数，字符串）为（key，Value）的文本文件，文件的大小内容任意，文件数量不少于100个；
2、使用SequenceFile对以上文件进行封装成一个独立文件，压缩格式任意；
3、对于2生成的独立文件，可以实现以下的三种方式的查询：
3.1）给出文件名，可以从序列文件整体读取文件并存储到指定的位置；
3.2）给出某个整数的key，可以读取所有该key的数据，并给出所在文件的名称（可以输出到控制台）
3.3）给出文件名和整数的key，可以读取该文件中的对应key的数据（可以输出到控制台）

1、使用随机数生成以（整数，字符串）为（key，Value）的文本文件

程序代码：

import java.io.BufferedOutputStream;  
import java.io.File;  
import java.io.FileOutputStream;  
import java.io.PrintStream;  
import java.util.ArrayList;  
import java.util.List;  
import java.util.Random;  
  
public class RadnomTxtFileCreator {
    // lab 5-1  
    public static void main(String[] args) {
     
        long start=System.currentTimeMillis();  
        int numOfFiles = 100;  
        int numOfRecorders = 100000;  
        //本地文件位置，修改合適的位置  
        String uri = "src/hdfs/lab5/files";  
        FileOutputStream fout = null;  
        Random ra = new Random();  
        try {
     
            for (int i = 1; i <= numOfFiles; i++) {
     
                System.out.println("writing file#"+i);  
                fout = new FileOutputStream(new File(uri + "\\file" + i));  
                List<String> list = new ArrayList<String>();  
                for (int j = 0; j < numOfRecorders; j++)  
                    list.add(ra.nextInt(numOfRecorders) + 1 + "\t" + "the recorder #" + j + " in file#" + i);  
                PrintStream pStream = new PrintStream(

最低0.47元/天解锁文章

H_x

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
4
评论
hadoop中SequenceFile的使用

序列文件 SequenceFileSequenceFile的每条记录是可序列化的字符数组；存储结构上，SequenceFile由一个Header后跟多条Record组成；Header：包含了Key classname，Value classname，存储压缩算法，用户自定义元数据等信息；还包含了一些同步标识，用于快速定位到记录的边界。Record:每条Record以键值对的方式进行存储；记录的长度、Key的长度、Key值和Value值，并且Value值的结构取决于该记录是否被压缩。序列化文件的
复制链接

扫一扫

专栏目录