hadoop中MapReduce对大量小文件的操作

该博客展示了如何在Hadoop MapReduce中通过自定义InputFormat `MyInPutFormat` 一次性读取大量小文件,实现了对每个文件内容的完整处理。`WebLogSequenceFileMapper` 类用于映射数据,将文件名作为key,文件内容作为value发送给Reducer。最终输出使用了`SequenceFileOutputFormat`。
摘要由CSDN通过智能技术生成

package com.zyc.hadoop.mapreduce.weblog;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;
import java.io.IOException;

/**
* Created with IntelliJ IDEA.
*
* @Author: zyc2913@163.com
* @Date: 2020/9/10 22:14
* @Version: 1.0
* @Description: 大量小文件的处理:通过自定义InputFormat完成一次性读取整个文件的操作
*/
public class WebLogSequenceFile {
    public static void main(Strin

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值