【BigData】MapReduce01(概述/规范/序列化)

酱白

已于 2023-07-21 20:43:16 修改

阅读量104

点赞数

文章标签：大数据

于 2023-07-21 20:38:05 首次发布

本文链接：https://blog.csdn.net/weixin_32709317/article/details/131772297

版权

Bigdata-Hadoop-MapReduce

可能是第三章的MapReduce的记录

文章目录

Bigdata-Hadoop-MapReduce
MapReduce概述
一、MapReduce优缺点
- 优点
- 缺点
二、MR核心思想
- 1.MR相关规范
三.Hadoop序列化
- **1 序列化概述**
- 2.Hadoop序列化实例
总结

MapReduce概述

MapReduce是一个分布式运算程序 的编程框架。是用户开发“基于Hadoop的数据分析应用”的核心框架。
其核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

一、MapReduce优缺点

优点

MapReduce易于编程

简单的实现一些接口，就可以完成一个分布式程序，

良好的拓展性

当你的计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力。

高容错性

运行机器中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由Hadoop内部完成的。

适合PB级以上海量数据的离线处理

可以实现上千台服务器集群并发工作，提供数据处理能力。

缺点

不擅长实时计算

不擅长像MySQL一样在毫秒或者秒级内返回结果。

不擅长流式计算

流式计算的输入数据是动态的，而MR的输入数据是静态的。这是由MR资深的设计特点决定的。

不擅长DAG（有向无环图）计算

MR中多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。这种情况下MR使用后，每个作业的输出结果都会写入磁盘，这会造成大量的磁盘IO，导致总体性能底下。

二、MR核心思想

（1）分布式的运算程序往往需要分成至少2个阶段。
（2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。
（3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。
（4）MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序，串行运行。

1.MR相关规范

一个完整的MapReduce程序在分布式运行时有三类实例进程：
（1）MrAppMaster：负责整个程序的过程调度及状态协调。
（2）MapTask：负责Map阶段的整个数据处理流程。
（3）ReduceTask：负责Reduce阶段的整个数据处理流程。
常用数据序列化类型
用户编写的程序分成三个部分：Mapper、Reducer和Driver。

在这里插入图片描述

三.Hadoop序列化

1 序列化概述

1）什么是序列化
序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。
反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。
2）为什么要序列化
一般来说，java中创建的对象是存储在内存中的可执行对象，但是关机断电后就会消失，且由于只存储在本地内存，因此只能由本地的进程调用，也无法发送到网络上的另一台计算机。而序列化可以将这些创建对象存储起来，并将其发送到另一台计算机中。
3）为什么不使用Java自带的序列化方法
Java的序列化是重量级序列化框架。当一个对象被序列化后，会附带包括但不限于各种校验信息，Header，继承体系等等冗余的信息，不便于在网络中高效传输，所以Hadoop有一套自己的序列化机制。
4）Hadoop序列化特点

紧凑
快速：读写数据的额外开销小
互操作：支持多语言交互

2.Hadoop序列化实例

自定义实例化共有以下七步：
（1）必须实现Writable接口
（2）反序列化时，需要反射调用空参构造函数，所以必须有空参构造

public FlowBean() {
	super();
}

（3）重写序列化方法

@Override
public void write(DataOutput out) throws IOException {
	out.writeLong(upFlow);
	out.writeLong(downFlow);
	out.writeLong(sumFlow);
}

（4）重写反序列化方法

@Override
public void readFields(DataInput in) throws IOException {
	upFlow = in.readLong();
	downFlow = in.readLong();
	sumFlow = in.readLong();
}

（5）注意反序列化的顺序和序列化的顺序完全一致。
（6）要想把结果显示在文件中，需要重写toString()，可用"\t"分开，方便后续用。
（7）如果需要将自定义的bean放在key中传输，则还需要实现Comparable接口，因为MapReduce框中的Shuffle过程要求对key必须能排序。

总结

例如：以上就是这篇文章要讲的内容，本文仅仅简单介绍了Hadoop的基础概念，创建规范以及序列化流程。下一部分将会对Hadoop中MapReduce框架进行详细分析。

酱白

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【BigData】MapReduce01(概述/规范/序列化)

MapReduce是一个分布式运算程序的编程框架。是用户开发“基于Hadoop的数据分析应用”的核心框架。其核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。例如：以上就是这篇文章要讲的内容，本文仅仅简单介绍了Hadoop的基础概念，创建规范以及序列化流程。下一部分将会对Hadoop中MapReduce框架进行详细分析。
复制链接

扫一扫