使用Hadoop的MapReduce与HDFS处理数据

hadoop是一个分布式的基础架构,利用分布式实现高效的计算与储存,最核心的设计在于HDFS与MapReduce,HDFS提供了大量数据的存储,mapReduce提供了大量数据计算的实现,通过Java项目实现hadoop job处理海量数据解决复杂的需求。

一、基本环境及相关软件的配置

    具体配置说明:基本环境配置及权限申请

二、hadoop项目开发流程

     hadoop基本的开发为job的初始化与分布式处理流程的开发。

1、任务基本配置

    首相依据业务需求,须要在代码中配置job在每台机器上须要的java虚拟机使用的内存与运行过程须要的最大内存。

Configuration configuration = new Configuration();
configuration.set( "mapreduce.map.java.opts" , "-Xmx2048m" );
configuration.set( "mapreduce.map.memory.mb" , "3072" );
configuration.set( "mapreduce.reduce.java.opts" , "-Xmx2048m" );
configuration.set( "mapreduce.reduce.memory.mb" , "3072" );
Job job = new Job(configuration, "miuilite-dailyRetain-" +arg[ 4 ]);

2、执行參数配置

job.setJarByClass(MiuiliteRetainJob. class );
MultipleOutputs.addNamedOutput(job, MIUIDanfaGeneralMapReduce.MULTI_OUTPUT_NAME_STATUS, SequenceFileOutputFormat. class ,Text. class , Text. class );
job.setOutputFormatClass(SequenceFileOutputFormat. class );
MultipleInputs.addInputPath(job, new Path(arg[ 0 ]), SequenceFileInputFormat. class , MiuiliteRetainMapReduce.NewLogMapper. class );
MultipleInputs .addInputPath(job, new Path(arg[ 1 ]), SequenceFileInputFormat. class , MiuiliteRetainMapReduce.StatusLogMapper. class );
FileOutputFormat.setOutputPath(job, new Path(arg[ 2 ]));
job.setReducerClass(MiuiliteRetainMapReduce.RetainReducer. class );
job.setMapOutputKeyClass(Text. class );
job.setMapOutputValueClass(Text. class );
job.setOutputKeyClass(Text. class );
job.setOutputValueClass(LongWritable. class );
job.setNumReduceTasks( 40 ); //配置节点数量

     hadoop任务处理过程中,各个分布式机器读取操作数据都是通过分布式储存文件系统hdfs,而且分布式计算将中间结果或者终于结果都是保存到hdfs上的,所以在job开发过程中须要的配置有:

   1)相关的地址:数据hdfs地址,中间状态缓存保存HDFS地址,以及生成的结果hdfs保存地址,(如须要本地进一步处理结果,还须要本地地址,须要将hdfs的结果地址拉取到本 地进行处理),本地server地址:

          MultipleInputs.addInputPath(job, new Path(arg[0]), SequenceFileInputFormat.class, MiuiliteRetainMapReduce.NewLogMapper.class); 

        注意:对于要写入数据的地址要具有写的权限,具体权限配置请看基本配置介绍。

   2)各种数据格式:

            一种是文件的读取格式,能够使用基于行的日志文件,也能够使用二进制格式,多行输入记录或其它的格式,Hadoop有自带的几种格式:

输入格式
解释
key
value
TextInputFormat默认格式,依照行读取行的字节偏移量行的内容
KeyValueInputFormat解析每一行的数据第一个Tab前的字符剩下的内容
SequenceFileInputFormat具有高性能的二进制格式自己定义自己定义

所以在读取输入文件格式中,须要选择自己合适的格式来初始化  MultipleInputs.addInputPath(job, new Path(arg[0]), SequenceFileInputFormat.class, MiuiliteRetainMapReduce.NewLogMapper.class);

对于自己定义的SequenceFileInputFormat,它会读取特殊的特定于Hadoop的二进制文件,会让Hadoop的mapper高速读取数据。Sequence文件是块压缩的,并提供了对几种数据类型(不不过文本类型)直接的序列化与反序列化操作。

     其次文件读取key 与value的格式,以及输出到文件的格式:BooleanWritable:标准布尔型数值,ByteWritable:单字节数值,DoubleWritable:双字节数,FloatWritable:浮点数,IntWritable:整型数,LongWritable:长整型数,Text:使用UTF8格式存储的文本,NullWritable:当<key,value>中的key或value为空时使用,须要在初始化job的过程中初始化相应输入输出的格式。

  3)配置数据处理类,一般分为两个阶段,

        第一步叫做mapping,会对数据作为mapper函数的输入数据,每条数据相应一个,mapper会吧每次map处理后的结果能够依据同样的key单独传到一个输出数据元素里面。样例: MultipleInputs.addInputPath(job, new Path(arg[0]), SequenceFileInputFormat.class, MiuiliteRetainMapReduce.NewLogMapper.class);。 

        注意:能够同一时候使用多个数据输入处理的mapper,但输出key与value格式必须保持一致。

        第二步叫做reducer,会接收mapping的输出作为输入列表的迭代器,会将同一key的值聚合在一起,并做一定的处理而返回处理结果。样例:job.setReducerClass(MiuiliteRetainMapReduce.RetainReducer.class);

3、数据处理流程

    在全部配置好了之后调用job.waitForCompletion(true);提交任务运行任务并等待结束。

Mapper阶段:

public static class NewLogMapper extends Mapper<Object, BytesWritable, Text, Text> {
 
         @Override
         public void map(Object key, BytesWritable value, Context context) {
         //..........省略中间处理原始数据过程,比方解密,生成OutPutKey等
         context.write( new Text(OutPutKey), new Text(OutPutValue);
     }
 
}

Redecer阶段:

public static  class RetainReducer extends Reducer<Text, Text, Text, Text> {
         @Override
         public void setup(Context context) throws IOException, InterruptedException {
             super .setup(context);
             //数据初始化过程,初始化相关的计数工具
         }
 
         @Override
         public void reduce(Text key, Iterable<Text> values, Context context) {
           //相应同一个key进行相关的统计处理阶段,并将数据计入到相关的计数工具中。
         }
         @Override
         protected void cleanup(Reducer.Context context) throws IOException, InterruptedException {
                 stringCounter.output(context);
                 super .cleanup(context);
          //运行完成的兴许阶段,将没台分布式计算的机器的结果输入到hdfs上,清理context,
 
         }

reducer完毕后须要统一将处理结果写入到HDFS中,所以在统计工具中应带有最后的输出函数:

public void output(Reducer.Context context, int longTailBar) throws IOException, InterruptedException {
         for (Iterator<String> iterator = stringCountMap.keySet().iterator(); iterator.hasNext();) {
             String key = iterator.next();
             long value = stringCountMap.get(key);
             if (value < longTailBar)
                 continue ;
             key = key.replace( '\r' , ' ' );
             key = key.replace( '\n' , ' ' );
             context.write( new Text(key), new LongWritable(value));
         }
     }

4、处理结果本地

    hadoop处理后的结果都是保存在hdfs上的,能够将相应的结果作为行的任务的输入进一步精确处理,假设须要进一步本地处理,通过调用本地shell命令将结果拷贝到本地:

private void copyToLocal(String hdfsPath, String localPath) throws IOException, InterruptedException {
         String[] cmd = { "/bin/sh" , "-c" , "hadoop fs -cat " + hdfsPath + "/part* > " + localPath};
         String tmpDic = loalPath.substring( 0 ,localPath.lastIndexOf( "/" ));
         if (! new File(tmpDic).exists()){
             new File(tmpDic).mkdirs();
         }
         if (! new File(localPath).exists()){
             new File(localPath).createNewFile();
         }
         Process pid = Runtime.getRuntime().exec(cmd);
         if (pid != null ) {
             pid.waitFor();
         }
     }

三、执行流程

执行shell命令配置

      hadoop项目执行方式通过shell文件执行指定的jar包,并指定相应的入口函数,根据项目的需求传入不同的參数。

      hadoop jar  miuiapp-logs.jar com.xiaomi.miui.logs.danfa.MiuiMihomeGeneralJob XXX-param-1 XXX-param-2 XXX-param-3

注意:假设通过crontab -e定时指定相关的命令执行,须要在执行的shell文件里加入 jdk,hadoop的地址到环境变量中。

注意:在配置pom过程中须要将jar包打成大包,将全部依赖的jar包都应该打进去,所以在pom中应该增加下列配置:

< plugin >
     < groupId >org.apache.maven.plugins</ groupId >
     < artifactId >maven-dependency-plugin</ artifactId >
</ plugin >
< plugin >
     < groupId >org.apache.maven.plugins</ groupId >
         < artifactId >maven-assembly-plugin</ artifactId >
         < version >2.3</ version >
         < configuration >
             < appendAssemblyId >false</ appendAssemblyId >
             < descriptorRefs >
               < descriptorRef >jar-with-dependencies</ descriptorRef >
             </ descriptorRefs >
         </ configuration >
             < executions >
                < execution >
                     < id >make-assembly</ id >
                     < phase >package</ phase >
                     < goals >
                         < goal >assembly</ goal >
                     </ goals >
                 </ execution >
             </ executions >
</ plugin >
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值