Hadoop编程实验3 MapReduce英语单词频次统计

目录

实验目的和要求

实验环境

实验内容与过程

1、实验内容

2、实验过程

3、流程图 

实验结果与分析

(1)实验结果

(2)结果分析

实验心得


实验目的和要求

编写MapReduce程序,实现英语单词频次统计。理解MapReduce<keyvalue>键值对形式的输入输出。

实验环境

  1. 操作系统:Ubuntu16.04
  2.   软件:JDK-1.8Hadoop-2.7Eclipse
  3.   数据存放路径:/data/dataset
  4.   tar包路径:/data/software
  5.   tar包压缩路径:/data/bigdata
  6.   软件安装路径:/opt

  实验设计创建文件:/data/resource

  • 实验内容与过程

1、实验内容

(1)在Eclipse等编译器中编写map程序;

(2)在Eclipse等编译器中编写reduce程序;

(3)通过主方法路径配置、文件写入等实现数据读取和显示操作

2、实验过程

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
public class MyMap extends Mapper<LongWritable, Text,Text,LongWritable> {
    @Override
    protected void map(LongWritable key,Text value,Context context) throws IOException, InterruptedException {
        String valueString = value.toString();
        String wArr[] = valueString.split(" ");
        for(int i = 0;i < wArr.length;i++){
            //map out key/value
            context.write(new Text(wArr[i]), new LongWritable(1));
        }
    }
}
public class MyReduce extends Reducer<Text, LongWritable,Text,LongWritable> {
    @Override
    protected void reduce(Text key,Iterable<LongWritable> valueIn,Context context) throws IOException, InterruptedException {
        Iterator<LongWritable> it = valueIn.iterator();
        long sum = 0;
        //iterator count arr
        while(it.hasNext()){
            sum += it.next().get();
        }
        context.write(key,new LongWritable(sum));
    }
}
public class TestJob {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
        job.setJarByClass(TestJob.class);
        job.setMapperClass(MyMap.class);
        job.setReducerClass(MyReduce.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);
        FileInputFormat.setInputPaths(job,new Path("file:///simple/word.txt"));
        FileOutputFormat.setOutputPath(job,new Path("file:///simple/result"));
        job.waitForCompletion(true);
    }
}

(1)创建wordcount.txt文件,将需要统计的语句保存到其中。

(2)启动Hadoop集群

(3)将文件上传到HDFS

(4)进入mapreduce目录,打开终端

(5)输入命令hadoop jar hadoop-mapreduce-examples-3.3.0.jar wordcount /input /output

(6)再输入hdfs dfs -cat /output查看结果

3、流程图 

 

实验结果与分析

(1)实验结果

(2)结果分析

实验结果与预期相符,实验成功。通过Reducer输出的结果文件,可得到每个单词在所有文本文件中出现的次数。 

实验心得

这个实验对于理解MapReduce并掌握其运行流程至关重要。通过自己动手实现一个简单的MapReduce应用,我们可以深入了解这一大数据处理框架的工作原理和内部机制。在处理大规模数据时,为了提高系统的性能和可伸缩性,需要采用分布式、并行化的方法,而这正是MapReduce所擅长的。同样,也让我认识到了各种优化技巧在系统的效率上的巨大影响。

这个实验虽然难度不算太高,但对于编程能力和调试能力的锻炼是十分有帮助的。通过学习MapReduce框架和处理流程,并利用Hadoop等工具进行调试和验证实验结果,同时也让我对代码可维护性和可读性有了更深入的认识。

总之,这个实验让我更好地理解了大数据处理的基本思想和核心技术,让我对未来从事相关领域的工作充满了信心和热情。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值