一、hadoop序列化的特点:
1、紧凑:高效使用存储空间
2、快速:读写数据的额外开销小
3、可扩展:随着通信协议的升级而升级
4、互操作:支持多语言的交互
二、hadoop小文件处理方式:每一个小文件都是一个Block,都会产生一个InputSplit,最终每一个小文件都会产生一个map任务。
解决方案:选择一个容器,将这些小文件组织起来统一存储,HDFS提供了两种类型的
容器,分别是SequenceFile 和 MapFile。SequenceFile 其实可以理解为把很多小文件压缩成一个大的压缩包了
三、SequeceFile是Hadoop 提供的一种二进制文件,这种二进制文件直接将<key, value>对序列化到文件中。
- 一般对小文件可以使用这种文件合并,即将小文件的文件名作为key,文件内容作为value列化到大文件中.
- 缺点:这种方式需要一个合并的过程,最终合并的文件会比较大,并且合并后的文件查看不方便,必须通过遍历才可以查看里面的每一个小文件
package com.imooc.mr;
import org.apache.commons.io.FileUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;
import java.io.File;
/**
* 小文件解决方案之SequenceFile
*
*/
public class SmallFileSeq {
public static void main(String[] args) throws Exception{
//生成SequenceFile文件
write("g:\\smallFile","/seqFile");
//读取SequenceFile文件
read("/seqFile");
}
/**
* 生成SequenceFile文件
* @param inputDir 输入目录-windows目录
* @param outputFile 输出文件-hdfs文件
* @throws Exception
*/
private static void write(String inputDir,String outputFile) throws Exception{
//创建一个配置对象
Configuration conf = new Configuration();
//指定HDFS的地址
conf.set("fs.defaultFS","hdfs://bigdata01:9000");
//获取操作HDFS的对象
FileSystem fileSystem = FileSystem.get(conf);
//删除HDFS上的输出文件
fileSystem.delete(new Path(outputFile),true);
//构造opts数组,有三个元素
/*
第一个是输出路径【文件】
第二个是key的类型
第三个是value的类型
*/
SequenceFile.Writer.Option[] opts = new SequenceFile.Writer.Option[]{
SequenceFile.Writer.file(new Path(outputFile)),
SequenceFile.Writer.keyClass(Text.class),
SequenceFile.Writer.valueClass(Text.class)
};
//创建了一个writer实例
SequenceFile.Writer writer = SequenceFile.createWriter(conf, opts);
//指定需要压缩的文件的目录
File inputDirPath = new File(inputDir);
//如果目录存在
if(inputDirPath.isDirectory()){
//获取目录中的文件
File[] files = inputDirPath.listFiles();
//迭代文件
assert files != null;
for (File file: files) {
//获取文件的全部内容
String content = FileUtils.readFileToString(file, "UTF-8");
//获取文件名
String fileName = file.getName();
Text key = new Text(fileName);
Text value = new Text(content);
//向SequenceFile中写入数据
writer.append(key,value);
}
}
writer.close();
}
/**
* 读取SequenceFile文件
* @param inputFile SequenceFile文件路径
* @throws Exception
*/
private static void read(String inputFile) throws Exception{
//创建一个配置对象
Configuration conf = new Configuration();
//指定HDFS的地址
conf.set("fs.defaultFS","hdfs://bigdata01:9000");
//创建阅读器
SequenceFile.Reader reader = new SequenceFile.Reader(conf, SequenceFile.Reader.file(new Path(inputFile)));
Text key = new Text();
Text value = new Text();
//循环读取数据,读数据要读它的下一条数据才可以
while(reader.next(key,value)){
//输出文件名称
System.out.print("文件名:"+key.toString()+",");
//输出文件内容
System.out.println("文件内容:"+value.toString()+"");
}
reader.close();
}
}
五、MapFile是排序后的SequenceFile,MapFile由2部分组成,分别是index和data,index作为文件的数据索引,主要记录了每个Record的key值,以及该Record在文件中的偏移位置。MapFile的检索效率是高效的,缺点是会消耗一部分内存来存储index数据。
package com.imooc.mr;
import org.apache.commons.io.FileUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.MapFile;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;
import java.io.File;
/**
* 小文件解决方案之MapFile
* Created by xuwei
*/
public class SmallFileMap {
public static void main(String[] args) throws Exception{
//生成MapFile文件
write("g:\\smallFile","/mapFile");
//读取MapFile文件
read("/mapFile");
}
/**
* 生成MapFile文件
* @param inputDir 输入目录-windows目录
* @param outputDir 输出目录-hdfs目录
* @throws Exception
*/
private static void write(String inputDir,String outputDir) throws Exception{
//创建一个配置对象
Configuration conf = new Configuration();
//指定HDFS的地址
conf.set("fs.defaultFS","hdfs://bigdata01:9000");
//获取操作HDFD的对象
FileSystem fileSystem = FileSystem.get(conf);
//删除HDFS上的输出文件
fileSystem.delete(new Path(outputDir),true);
//构造opts数组,有两个元素
/*
第一个是key的类型
第二个是value的类型
*/
SequenceFile.Writer.Option[] opts = new SequenceFile.Writer.Option[]{
MapFile.Writer.keyClass(Text.class),
MapFile.Writer.valueClass(Text.class)
};
//创建了一个writer实例
MapFile.Writer writer = new MapFile.Writer(conf, new Path(outputDir), opts);
//指定需要压缩的文件的目录
File inputDirPath = new File(inputDir);
if(inputDirPath.isDirectory()){
//获取目录中的文件
File[] files = inputDirPath.listFiles();
//迭代文件
for (File file: files) {
//获取文件的全部内容
String content = FileUtils.readFileToString(file, "UTF-8");
//获取文件名
String fileName = file.getName();
Text key = new Text(fileName);
Text value = new Text(content);
//向SequenceFile中写入数据
writer.append(key,value);
}
}
writer.close();
}
/**
* 读取MapFile文件
* @param inputDir MapFile文件路径
* @throws Exception
*/
private static void read(String inputDir)throws Exception{
//创建一个配置对象
Configuration conf = new Configuration();
//指定HDFS的地址
conf.set("fs.defaultFS","hdfs://bigdata01:9000");
//创建阅读器
MapFile.Reader reader = new MapFile.Reader(new Path(inputDir),conf);
Text key = new Text();
Text value = new Text();
//循环读取数据
while(reader.next(key,value)){
//输出文件名称
System.out.print("文件名:"+key.toString()+",");
//输出文件内容
System.out.println("文件内容:"+value.toString()+"");
}
reader.close();
}
}