大数据之hadoop中的MapReduce(WordCount实例)

本文介绍了Hadoop MapReduce的核心功能和优缺点,详细讲解了MapReduce的编程规范,包括Mapper和Reducer阶段的工作原理。通过一个WordCount案例,从本地模式到集群运行,演示了MapReduce程序的实现过程。同时,文章还提及了hadoop序列化和数据压缩等内容。
摘要由CSDN通过智能技术生成

1、概述

        MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。 MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的 分布式运算程序,并发运行在一个 Hadoop 集群上。

        优点:易于编程(用户只关心业务逻辑即可)、良好的扩展性(可以动态增加服务器)、高容错性(任意一台机器挂掉,可以将任务转移到另一节点)、适合海量数据计算(PB/BP)

        缺点:不擅长实时计算、不擅长流式计算、不擅长 DAG(有向无环图)计算(相当于一个迭代式的计算,一台服务器计算后结果一次传递下去)

        MapReduce的核心思想

 注:Map阶段由MapTask并发实例,完全并行运行,互不相干,reduce阶段由reduceTask并发实例互不相干,但是依赖于上一阶段Map的输出。

        MapReduce编程规范

1、Mapper阶段

        (1)用户自定义的Mapper要继承自己的父类

        (2)Mapper的输入数据是KV对的形式(KV的类型可自定义)

        (3)Mapper中的业务逻辑写在map()方法中

        (4)Mapper的输出数据是KV对的形式(KV的类型可自定义)

        (5)map()方法(MapTask进程)对每一个调用一 次

2、reduce阶段

        (1)用户自定义的Reducer要继承自己的父类

        (2)Reducer的输入数据类型对应Mapper的输出数据类型,也是KV

        (3)Reducer的业务逻辑写在reduce()方法中

        (4)ReduceTask进程对每一组相同k的组调用一次reduce()方法

3.Driver阶段

         相当于YARN集群的客户端,用于提交我们整个程序到YARN集群,提交的是 封装了MapReduce程序相关运行参数的job对象

WordCount案例(先是本地模式,然后将其打包上传到集群进行运行)

        首先准备一个数据文本文件数据如下:

         接着开始对idea进行项目环境搭建,创建一个Maven工程,在pom.xml文件中添加依赖

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

独创之上

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值