Mapreduce

最新推荐文章于 2024-08-28 20:05:56 发布

未来世界～未来之星

最新推荐文章于 2024-08-28 20:05:56 发布

阅读量105

点赞数

分类专栏：大数据 hadoop java 文章标签： hadoop big data mapreduce

本文链接：https://blog.csdn.net/qq_43256584/article/details/120826935

版权

大数据同时被 3 个专栏收录

9 篇文章 0 订阅

订阅专栏

hadoop

8 篇文章 0 订阅

订阅专栏

java

2 篇文章 0 订阅

订阅专栏

一、hadoop序列化的特点：
1、紧凑：高效使用存储空间
2、快速：读写数据的额外开销小
3、可扩展：随着通信协议的升级而升级
4、互操作：支持多语言的交互
二、hadoop小文件处理方式：每一个小文件都是一个Block，都会产生一个InputSplit，最终每一个小文件都会产生一个map任务。
解决方案：选择一个容器，将这些小文件组织起来统一存储，HDFS提供了两种类型的
容器，分别是SequenceFile 和 MapFile。SequenceFile 其实可以理解为把很多小文件压缩成一个大的压缩包了
三、SequeceFile是Hadoop 提供的一种二进制文件，这种二进制文件直接将<key, value>对序列化到文件中。

一般对小文件可以使用这种文件合并，即将小文件的文件名作为key，文件内容作为value列化到大文件中.
缺点：这种方式需要一个合并的过程，最终合并的文件会比较大，并且合并后的文件查看不方便，必须通过遍历才可以查看里面的每一个小文件

package com.imooc.mr;

import org.apache.commons.io.FileUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;

import java.io.File;

/**
 * 小文件解决方案之SequenceFile
 *
 */
public class SmallFileSeq {

    public static void main(String[] args) throws Exception{
        //生成SequenceFile文件
        write("g:\\smallFile","/seqFile");
        //读取SequenceFile文件
        read("/seqFile");
    }


    /**
     * 生成SequenceFile文件
     * @param inputDir 输入目录-windows目录
     * @param outputFile 输出文件-hdfs文件
     * @throws Exception
     */
    private static void write(String inputDir,String outputFile) throws Exception{
        //创建一个配置对象
        Configuration conf = new Configuration();
        //指定HDFS的地址
        conf.set("fs.defaultFS","hdfs://bigdata01:9000");

        //获取操作HDFS的对象
        FileSystem fileSystem = FileSystem.get(conf);

        //删除HDFS上的输出文件
        fileSystem.delete(new Path(outputFile),true);

        //构造opts数组，有三个元素
        /*
        第一个是输出路径【文件】
        第二个是key的类型
        第三个是value的类型
         */
        SequenceFile.Writer.Option[] opts = new SequenceFile.Writer.Option[]{
                SequenceFile.Writer.file(new Path(outputFile)),
                SequenceFile.Writer.keyClass(Text.class),
                SequenceFile.Writer.valueClass(Text.class)
        };
        //创建了一个writer实例
        SequenceFile.Writer writer = SequenceFile.createWriter(conf, opts);

        //指定需要压缩的文件的目录
        File inputDirPath = new File(inputDir);
        //如果目录存在
        if(inputDirPath.isDirectory()){
            //获取目录中的文件
            File[] files = inputDirPath.listFiles();
            //迭代文件
            assert files != null;
            for (File file: files) {
                //获取文件的全部内容
                String content = FileUtils.readFileToString(file, "UTF-8");
                //获取文件名
                String fileName = file.getName();
                Text key = new Text(fileName);
                Text value = new Text(content);
                //向SequenceFile中写入数据
                writer.append(key,value);
            }
        }
        writer.close();
    }

    /**
     * 读取SequenceFile文件
     * @param inputFile SequenceFile文件路径
     * @throws Exception
     */
    private static void read(String inputFile) throws Exception{
        //创建一个配置对象
        Configuration conf = new Configuration();
        //指定HDFS的地址
        conf.set("fs.defaultFS","hdfs://bigdata01:9000");
        //创建阅读器
        SequenceFile.Reader reader = new SequenceFile.Reader(conf, SequenceFile.Reader.file(new Path(inputFile)));
        Text key = new Text();
        Text value = new Text();
        //循环读取数据，读数据要读它的下一条数据才可以
        while(reader.next(key,value)){
            //输出文件名称
            System.out.print("文件名："+key.toString()+",");
            //输出文件内容
            System.out.println("文件内容："+value.toString()+"");
        }
        reader.close();
    }

}

五、MapFile是排序后的SequenceFile,MapFile由2部分组成，分别是index和data,index作为文件的数据索引，主要记录了每个Record的key值，以及该Record在文件中的偏移位置。MapFile的检索效率是高效的，缺点是会消耗一部分内存来存储index数据。

package com.imooc.mr;

import org.apache.commons.io.FileUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.MapFile;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;

import java.io.File;

/**
 * 小文件解决方案之MapFile
 * Created by xuwei
 */
public class SmallFileMap {

    public static void main(String[] args) throws Exception{
        //生成MapFile文件
        write("g:\\smallFile","/mapFile");
        //读取MapFile文件
        read("/mapFile");
    }

    /**
     * 生成MapFile文件
     * @param inputDir 输入目录-windows目录
     * @param outputDir 输出目录-hdfs目录
     * @throws Exception
     */
    private static void write(String inputDir,String outputDir) throws Exception{
        //创建一个配置对象
        Configuration conf = new Configuration();
        //指定HDFS的地址
        conf.set("fs.defaultFS","hdfs://bigdata01:9000");

        //获取操作HDFD的对象
        FileSystem fileSystem = FileSystem.get(conf);

        //删除HDFS上的输出文件
        fileSystem.delete(new Path(outputDir),true);

        //构造opts数组，有两个元素
        /*
        第一个是key的类型
        第二个是value的类型
         */
        SequenceFile.Writer.Option[] opts = new SequenceFile.Writer.Option[]{
                MapFile.Writer.keyClass(Text.class),
                MapFile.Writer.valueClass(Text.class)
        };
        //创建了一个writer实例
        MapFile.Writer writer = new MapFile.Writer(conf, new Path(outputDir), opts);

        //指定需要压缩的文件的目录
        File inputDirPath = new File(inputDir);
        if(inputDirPath.isDirectory()){
            //获取目录中的文件
            File[] files = inputDirPath.listFiles();
            //迭代文件
            for (File file: files) {
                //获取文件的全部内容
                String content = FileUtils.readFileToString(file, "UTF-8");
                //获取文件名
                String fileName = file.getName();
                Text key = new Text(fileName);
                Text value = new Text(content);
                //向SequenceFile中写入数据
                writer.append(key,value);
            }
        }
        writer.close();
    }

    /**
     * 读取MapFile文件
     * @param inputDir MapFile文件路径
     * @throws Exception
     */
    private static void read(String inputDir)throws Exception{
        //创建一个配置对象
        Configuration conf = new Configuration();
        //指定HDFS的地址
        conf.set("fs.defaultFS","hdfs://bigdata01:9000");
        //创建阅读器
        MapFile.Reader reader = new MapFile.Reader(new Path(inputDir),conf);
        Text key = new Text();
        Text value = new Text();
        //循环读取数据
        while(reader.next(key,value)){
            //输出文件名称
            System.out.print("文件名："+key.toString()+",");
            //输出文件内容
            System.out.println("文件内容："+value.toString()+"");
        }
        reader.close();
    }


}

未来世界～未来之星

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Mapreduce

一、hadoop序列化的特点：1、紧凑：高效使用存储空间2、快速：读写数据的额外开销小3、可扩展：随着通信协议的升级而升级4、互操作：支持多语言的交互二、hadoop小文件处理方式：每一个小文件都是一个Block，都会产生一个InputSplit，最终每一个小文件都会产生一个map任务。解决方案：选择一个容器，将这些小文件组织起来统一存储，HDFS提供了两种类型的容器，分别是SequenceFile 和 MapFile。SequenceFile 其实可以理解为把很多小文件压缩成一个大的压缩包了
复制链接

扫一扫

专栏目录