Hadoop四大组件之——MapReduce

最新推荐文章于 2023-09-09 11:11:17 发布

我有一条小鱼干

最新推荐文章于 2023-09-09 11:11:17 发布

阅读量1k

点赞数

分类专栏：大数据文章标签： hadoop big data

本文链接：https://blog.csdn.net/JDBC400451/article/details/120557695

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了MapReduce的核心功能，包括任务分配、监控与容错机制，以及关键组件如Partitioner、排序与序列化，Combiner和分组规则。详细讲解了自定义Partitioner和使用Hadoop序列化框架的过程。

摘要由CSDN通过智能技术生成

一、概念

MapReduce 是一个分布式运算程序的编程框架/编程模型

MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 Hadoop 集群上。

大数据量计算
利用了hdfs做了存储，计算任务是不是要分散计算
（1）任务的分配
（2）监控
（3）容错
（4）中间结果的汇总

二、组件

1、分区组件Partitioner

自定义一个类，继承Partitioner接口，再根据自身条件进行分区，然后再主函数中进行调用。代码：

public class MyPartitioner extends Partitioner<Text, LongWritable> {
    @Override
    public int getPartition(Text text, LongWritable longWritable, int numPartitions) {
   //按长度分两区
        if (text.toString().length() >= 5){
            return 0;
        }else {
            return 1;
        }
   	 }
	}

2 排序组件与序列化

序列化 (Serialization) ：结构化对象转化为字节流
反序列化 (Deserialization)：把字节流转为结构化对象。

在进程间传递对象或持久化对象的时候，需要序列化对象成字节流，反之当将接收到或从磁盘读取的字节流转换为对象，要进行反序列化

Java 的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系等），不便于在网络中高效传输；
所以，hadoop 自己开发了一套序列化机制（Writable），更加精简高效。
Hadoop 中的序列化框架已经对基本类型和 null 提供了序列化的实现了。

Hadoop为了提高效率自定义了一套序列化框架，如果在Hadoop程序中进行序列化操作则需要使用相应的数据类型