Hadoop之MapReduce简介

最新推荐文章于 2023-11-13 08:45:08 发布

Hirisw

最新推荐文章于 2023-11-13 08:45:08 发布

阅读量341

点赞数

分类专栏： Java 文章标签： Java 大数据 MapReduce Hadoop

本文链接：https://blog.csdn.net/hirisw/article/details/89681666

版权

Java 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

背景：今天的MapReduce简介从生活中的一个例子说起，相信麻将作为一个中国人大家应该都熟悉，现在有一个任务，将一堆数量不确定的麻将中的萬字都挑出来统计个数该怎么做？最直接的办法就是自己动手一个一个的清一个一个的数，如果这堆麻将的数量很大呢？是不是可以分成多份，多个人清多个人数，然后把每个人的数量加起来就是所需要的总数。没错，MapReduce就是这个原理，在分布式文件系统中进行分布式处理就是把一个复杂繁重的任务分配到多个服务器处理，然后处理完各个服务器再将处理结果发回给一个汇总服务器完成汇总工作，MapReduce就是这样进行分布式计算的，下面进入我们的正题简单介绍一下MapReduce。

简介：

MapReduce分为两个阶段：一个Map阶段一个Reduce阶段，Map阶段是一个独立程序，由多个节点通常是多个服务器独立进行，通常这里的多个节点都是并发执行，就如上面例子的多个人清麻将中的萬字并统计数量，Reduce阶段是一个独立的程序，有很多个单独的节点处理，每一个单独的节点处理一部分数据，通常的可以看做是把多个数据合并成一个的过程，如上面例子的统计每个人的萬字数汇总工作。在MapReduce框架中具体程序编写时只需要继承一个Mapper，Reducer类，覆盖里面的Map,Reduce方法即可实现，具体的安装Hadoop和编写MapReduce程序会单独抽时间跟大家分享，这里先讲原理。

移动计算：

在讲解MapReduce的原理之前，我们先来了解两个概念：移动计算与移动数据，传统的数据库应用程序的方式是移动数据，它的执行原理是在一个客户端上执行程序，然后通过数据库执行语句从数据库拿数据，这种方式的好处是客户端可以任意位置，数据库固定位置，数据库将所需的数据通过网络发送给客户端，这种方式的劣势也很明显，那就是当数据量很大时绝大部分时间浪费在了数据传输上，如果是大数据计算PB级的数据拷贝绝对是噩梦，因此诞生了另外一个概念：移动计算，移动计算的思想是将应用程序复制到数据所在的位置，数据获取通过磁盘IO完成，没有网络IO，往往这种程序的特点是计算的程序本身比要处理的数据小很多，需要返回的结果也很小，拷贝应用的时间与拷贝数据的时间相比有绝对的优势，由于省略了数据源网络IO只需网络传输数据处理结果，运行效率也很大提高，这种思想就是MapReduce的基本思路。了解了移动计算后我们来讲解MapReduce的原理。

MapReduce整体的框架原理如下：需要注意的是所有应用计算过程都是移动计算的，即将计算程序拷贝到多个数据节点上进行的。