Hadoop中的SequenceFile系统之二

上篇文章中完成了Hadoop系统的分布式部署。
本篇文章主要是实现,如何进行小文件的序列化。

由于在服务器中的日志文件并不是完整的在一个根目录下的,因此我在代码中,添加了根目录判断的功能。
可以在部署到Linux服务器后,只要输入一个需要序列化的文件夹,即可自动判断文件夹中的小文件,然后进行序列化。

下面是完整的代码:

package com.hadoop.CRUD;

import java.io.BufferedInputStream;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.File;
import java.net.URI;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.HashSet;
import java.util.Iterator;
import java.util.List;
import java.util.Set;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;
/**
 * 
 * @author SamllSunL
 *
 */

public class SequenceFileRead {

    public static void main(String[] args) throws IOException {
        String seqFsUrl = args[0];
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(URI.create(seqFsUrl), conf);
        Path seqPath = new Path(seqFsUrl);
        Text value = new Text();
        String filesPath = args[1];
        /**
         * 读取到根节点
         */
        ArrayList<String> listFileName = new ArrayList<String>();
        ArrayList<String> listParentFile = new ArrayList<String>();
        getAllFileName(filesPath, listFileName, listParentFile);
        listParentFile = removeDuplicateWithOrder(listParentFile);
        simpleFile2Sequence(listParentFile, fs, conf, seqPath, value);

    }

    /**
     * 获取根级文件的上一级目录
     * 
     * @param path
     * @param fileName
     * @param parentFile
     */
    public static void getAllFileName(String path, ArrayList<String> fileName,
            ArrayList<String> parentFile) {
        File file = new File(path);
        File[] files = file.listFiles();
        String[] names = file.list();
        if (names != null)
            fileName.addAll(Arrays.asList(names));
        for (File a : files) {
            if (a.isDirectory()) {
                getAllFileName(a.getAbsolutePath(), fileName, parentFile);
            } else {
                parentFile.add(a.getAbsolutePath());
            }
        }
    }

    /**
     * 去除重复数据
     * 
     * @param list
     * @return
     */
    public static ArrayList<String> removeDuplicateWithOrder(
            ArrayList<String> list) {
        Set<String> set = new HashSet<String>();
        List<String> newList = new ArrayList<String>();
        for (Iterator<String> iter = list.iterator(); iter.hasNext();) {
            String element = iter.next();
            if (set.add(element))
                newList.add(element);
        }
        list.clear();
        list.addAll(newList);
        return list;
    }

    /**
     * 
     * 小文件打包成Sequence文件
     * 
     * @param filesPath
     * @param fs
     * @param conf
     * @param seqPath
     * @param value
     * @throws IOException
     */
    @SuppressWarnings("deprecation")
    public static void simpleFile2Sequence(List<String> filesPath,
            FileSystem fs, Configuration conf, Path seqPath, Text value)
            throws IOException {

        String[] gzFiles = (String[]) filesPath.toArray(new String[filesPath
                .size()]);
        int filesLen = gzFiles.length;
        SequenceFile.Writer writer = null;
        try {// 返回一个SequenceFile.Writer实例 需要数据流和path对象 将数据写入了path对象
            writer = SequenceFile.createWriter(fs, conf, seqPath,
                    NullWritable.class, value.getClass());
            while (filesLen > 0) {
                File gzFile = new File(gzFiles[filesLen - 1]);
                InputStream in = new BufferedInputStream(new FileInputStream(
                        gzFile));
                long len = gzFile.length();
                byte[] buff = new byte[(int) len];
                if ((len = in.read(buff)) != -1) {
                    value.set(buff);
                    writer.append(NullWritable.get(), value);// 将每条记录追加到SequenceFile.Writer实例的末尾
                }
                System.out.println(gzFiles[filesLen - 1]);
                value.clear();
                IOUtils.closeStream(in);
                filesLen--;// !!

            }
        } finally {
            IOUtils.closeStream(writer);
        }
    }

}

代码编写完整后,将其打成jar包然后部署到Linux服务器上。

hadoop -dfs jar xxx.jar arg1 arg2

其中arg1为序列化后的地址
arg2为需要序列化的文件夹或文件

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值