上篇文章中完成了Hadoop系统的分布式部署。
本篇文章主要是实现,如何进行小文件的序列化。
由于在服务器中的日志文件并不是完整的在一个根目录下的,因此我在代码中,添加了根目录判断的功能。
可以在部署到Linux服务器后,只要输入一个需要序列化的文件夹,即可自动判断文件夹中的小文件,然后进行序列化。
下面是完整的代码:
package com.hadoop.CRUD;
import java.io.BufferedInputStream;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.File;
import java.net.URI;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.HashSet;
import java.util.Iterator;
import java.util.List;
import java.util.Set;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;
/**
*
* @author SamllSunL
*
*/
public class SequenceFileRead {
public static void main(String[] args) throws IOException {
String seqFsUrl = args[0];
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(URI.create(seqFsUrl), conf);
Path seqPath = new Path(seqFsUrl);
Text value = new Text();
String filesPath = args[1];
/**
* 读取到根节点
*/
ArrayList<String> listFileName = new ArrayList<String>();
ArrayList<String> listParentFile = new ArrayList<String>();
getAllFileName(filesPath, listFileName, listParentFile);
listParentFile = removeDuplicateWithOrder(listParentFile);
simpleFile2Sequence(listParentFile, fs, conf, seqPath, value);
}
/**
* 获取根级文件的上一级目录
*
* @param path
* @param fileName
* @param parentFile
*/
public static void getAllFileName(String path, ArrayList<String> fileName,
ArrayList<String> parentFile) {
File file = new File(path);
File[] files = file.listFiles();
String[] names = file.list();
if (names != null)
fileName.addAll(Arrays.asList(names));
for (File a : files) {
if (a.isDirectory()) {
getAllFileName(a.getAbsolutePath(), fileName, parentFile);
} else {
parentFile.add(a.getAbsolutePath());
}
}
}
/**
* 去除重复数据
*
* @param list
* @return
*/
public static ArrayList<String> removeDuplicateWithOrder(
ArrayList<String> list) {
Set<String> set = new HashSet<String>();
List<String> newList = new ArrayList<String>();
for (Iterator<String> iter = list.iterator(); iter.hasNext();) {
String element = iter.next();
if (set.add(element))
newList.add(element);
}
list.clear();
list.addAll(newList);
return list;
}
/**
*
* 小文件打包成Sequence文件
*
* @param filesPath
* @param fs
* @param conf
* @param seqPath
* @param value
* @throws IOException
*/
@SuppressWarnings("deprecation")
public static void simpleFile2Sequence(List<String> filesPath,
FileSystem fs, Configuration conf, Path seqPath, Text value)
throws IOException {
String[] gzFiles = (String[]) filesPath.toArray(new String[filesPath
.size()]);
int filesLen = gzFiles.length;
SequenceFile.Writer writer = null;
try {// 返回一个SequenceFile.Writer实例 需要数据流和path对象 将数据写入了path对象
writer = SequenceFile.createWriter(fs, conf, seqPath,
NullWritable.class, value.getClass());
while (filesLen > 0) {
File gzFile = new File(gzFiles[filesLen - 1]);
InputStream in = new BufferedInputStream(new FileInputStream(
gzFile));
long len = gzFile.length();
byte[] buff = new byte[(int) len];
if ((len = in.read(buff)) != -1) {
value.set(buff);
writer.append(NullWritable.get(), value);// 将每条记录追加到SequenceFile.Writer实例的末尾
}
System.out.println(gzFiles[filesLen - 1]);
value.clear();
IOUtils.closeStream(in);
filesLen--;// !!
}
} finally {
IOUtils.closeStream(writer);
}
}
}
代码编写完整后,将其打成jar包然后部署到Linux服务器上。
hadoop -dfs jar xxx.jar arg1 arg2
其中arg1为序列化后的地址
arg2为需要序列化的文件夹或文件