易学笔记-第2章 关于MapReduce

第2章 关于MapReduce/2.1 气象数据集

  • MapReduce主流语言版本,可运行于不同的Hadoop版本
    1. Java
    2. Ruby
    3. Python
    4. C++
  • 气象数据集
  1. 例子:
    1. 需求:
    2. 气温的数据格式:
      1.  

第2章 关于MapReduce/2.2 使用Unix工具来分析数据

  • 使用Unix工具来分析数据
  1. 需求:
  2. 传统的awk分析:
    1. 遍历整个数据文件,找到一年中最高的那个气温:
  3. 并行处理
    1. 将任务划分为大小相同的作业,每一个作业由独立的进程处理。由于每一个作业数据文件存在差异性,所以有些作业时间少,有些作业时间多,最后的时间还是取决于最慢的作业
    2. 合并各个独立作业的运行结果,然后继续排序
    3. 受限于单台计算机的计算能力。如果数据处理量超过计算机能力,也将大大拖累整个任务完成效果
    4. 多个任务存在协调性和可靠性问题,比如失败的进程怎么处理

第2章 关于MapReduce/2.3 使用Hadoop来分析数据/2.3.1 map和reduce

  • map和reduce
  1. 概念:两者都是以键值对的方式作为输入输出的,其中
    1. map:数据准备,比如将文本的每一行作为输入,由于只关心年份和气温,所以只需要取出年份和气温值即可
    2. reduce:数据处理,比如找出每一年的最高气温
  2. 举例:
    1. map:
      1. 输入:
      2. 输出:通过对键值进行排序和处理后得出结果,该结果作为reduce的输入
    2. reduce :
      1. 输入:map处理后的数据:
      2. 输出:找出每一个年份最大值:
  3. 整个数据流过程:
    1. 原始数据-->map输入 (键值对):行偏移量:每行数据-->多个单行(年份,气温)-->按年份排序并汇集气温-->map输出-->reduce每一行取最大值-->reduce输出

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

易学笔记(qq:1776565180)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值