HDFS和MapReduce综合实训

最新推荐文章于 2023-11-18 09:31:07 发布

cz学java

最新推荐文章于 2023-11-18 09:31:07 发布

阅读量2.3k

点赞数 1

分类专栏：大数据技术文章标签： hadoop mapreduce hdfs

本文链接：https://blog.csdn.net/czczczs9/article/details/125012242

版权

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，可以在不了解分布式底层细节的情况下，开发分布式程序，以满足在低性能的集群上实现对高容错，高并发的大数据集的高速运算和存储的需要。Hadoop支持超大文件（可达PB级），能够检测和快速应对硬件故障、支持流式数据访问、同时在简化的一致性模型的基础上保证了高容错性。因而被大规模部署在分布式系统中，应用十分广泛。

本实训的主要目标是让大家学习Hadoop的基本概念如MapReduce、HDFS等，并掌握Hadoop的基本操作，主要包括MapReduce编程（词频统计）、HDFS文件流读取操作、MapReduce迭代等。通过本次实训，建立起对Hadoop云计算的初步了解，后续大家可以通过进阶学习来深入学习Hadoop内部实现机制进行高级的应用开发。

第1关：WordCount词频统计：

词频统计是最能体现MapReduce思想的程序，结构简单，上手容易。

词频统计的大致功能是：统计单个或者多个文本文件中每个单词出现的次数，并将每个单词及其出现频率按照<k，v>键值对的形式输出，其基本执行流程如下图所示：

由图可知：

输入文本（可以不只一个），按行提取文本文档的单词，形成行<k1，v1>键值对，具体形式很多，例如<行数，字符偏移>等；
通过Spliting将<k1，v1>细化为单词键值对<k2，v2>；
Map分发到各个节点，同时将<k2，v2>归结为list(<k2，v2>)；
在进行计算统计前，先用Shuffing将相同主键k2归结在一起形成<k2，list(v2)>；
Reduce阶段直接对<k2， list(v2)> 进行合计得到list(<k3，v3>)并将结果返回主节点。

主节点对预设文本文档进行词频统计，并将最终结果输出。

注：输入和输出事先已经预定，只要比较输出是否达到预期即可判断是否达到要求。

代码：

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {

public static class TokenizerMapper

extends Mapper<Object, Text, Text, IntWritable>{

private final static IntWritable one = new IntWritable(1);

private Text word = new Text()；

public void map(Object key, Text value, Context context

) throws IOException, InterruptedException {

StringTokenizer itr = new StringTokenizer(value.toString());

while (itr.hasMoreTokens()){

word.set(itr.nextToken());

context.write(word,one);

}

/*********begin*********

/*********end**********/

}

public static class IntSumReducer

extends Reducer<Text,IntWritable,Text,IntWritable> {

private IntWritable result = new IntWritable();

public void reduce(Text key, Iterable<IntWritable> values,

Context context

) throws IOException, InterruptedException {

/*********begin*********/

int sum = 0;

for (IntWritable val : values){

sum += val.get();

}

result.set(sum);

context.write(key,result);

/*********end**********/

/*********begin*********/

/*********end**********/

}

public static void main(String[] args) throws Exception {

/**

* JobConf£ºmap/reduceµÄjobÅäÖÃÀà£¬Ïòhadoop¿ò¼ÜÃèÊömap-reduceÖ´ÐÐµÄ¹¤×÷

* ¹¹Ôì·½·¨£ºJobConf()¡¢JobConf(Class exampleClass)¡¢JobConf(Configuration conf)µÈ

Configuration conf = new Configuration();

String[] otherArgs = new GenericOptionsPa

最低0.47元/天解锁文章

cz学java

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
HDFS和MapReduce综合实训

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，可以在不了解分布式底层细节的情况下，开发分布式程序，以满足在低性能的集群上实现对高容错，高并发的大数据集的高速运算和存储的需要。Hadoop支持超大文件（可达PB级），能够检测和快速应对硬件故障、支持流式数据访问、同时在简化的一致性模型的基础上保证了高容错性。因而被大规模部署在分布式系统中，应用十分广泛。本实训的主要目标是让大家学习Hadoop的基本概念如MapReduce、HDFS等，并掌握Hadoop的基本操作，主要包括MapRedu
复制链接

扫一扫