分布式并行计算框架MapReduce深入了解

最新推荐文章于 2022-07-31 10:09:55 发布

Daivei_lai

最新推荐文章于 2022-07-31 10:09:55 发布

阅读量473

点赞数 3

分类专栏： MapReduce 文章标签：分布式并行计算框架MapReduce深入了解

本文链接：https://blog.csdn.net/Daivei_lai/article/details/103058725

版权

MapReduce 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

分布式并行计算框架MapReduce

是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。
在这里插入图片描述

分布式并行计算框架

一个大的任务被拆分成多个小任务，每个小任务同时执行。按照执行流程进行计算。
在这里插入图片描述

大数据为什快

横向扩展
移动程序到数据端
多个数据副本
分布式存储（减小磁盘IO的瓶颈）
分布式计算（众人拾柴火焰高-人多力量大）

WordCount 单词总和
需求：
计算aaa.txt文档中每个单词出现的次数
例如：
zhangsan,lisi,wangwu
zhaoliu,qianqi,niuba
zhangsan,wangwu
zhaoliu,niuba
目标结果：
zhangsan 2
lisi 1
wangwu 2
zhaoliu 2
qianqi 1
niuba 2

代码
第一步：配置pom文件
偏移量
指的是每行行首字母移动到文办的最前面需要一定的字符。
MapReduce的数据类型
java: long int double float string Boolean
hadoop : LongWritable IntWritable DoubleWritable FloatWritable Text BooleanWritable
编写Map代码
1、实例一个实体类，继承Mapper<输入放入key的类型，输入的value的类型，输出放入key的类型，输出的value的
类型>
2 、重写map(LongWritable key, Text value, Context context)
key 每行行首的偏移量
value 每一行的数据
context 上下文对象
3、实现自己业务逻辑的代码
将数据进行拆分，并进行逐一输出。
编写Reduce代码
1、实例一个实体类，继承Reducer<输入放入key的类型，输入的value的类型，输出放入key的类型，输出的value的
类型> 2、重写reduce(Text key, Iterable values, Context context)
key: 每一个唯一的数据（游戏中的图形）
values：每一个图形，1 的标记（1的list）
context:上下文对象
3、遍历values(1的list)
进行求和
4、将key 和这个key对应的value(总和)输出。