MapReduce

大致内容
在这里插入图片描述
定义:
MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。
MapReduce:自己处理业务相关代码+自身的默认代码
优点:
1.易于编程。用户只关心业务逻辑和实现框架的接口。
2.良好的扩展性。可动态增加服务器,解决计算资源不够问题。
3.高容错性。任何一台机器挂掉,可以将任务转移到其他节点。
4.适合海量数据运算(TB/PB),几千台服务器共同计算。
缺点:
1.不擅长实时计算,MySQL更擅长(ms级)。通常处理的是分钟级别的,有时还可能要算几天。
2.不擅长流式计算。Sparkstreaming flink适合
3.不擅长DAG有向无环图计算。
在这里插入图片描述

MapReduce编程规范

Mapper阶段:
1.用户自定义的Mapper要继承自己的父类
2.Mapper的输入数据时KV对的形式(KV的类型可自定义)
3.Mapper中的业务逻辑写在map()方法中
4.Mapper的输出数据是KV对的形式(KV的类型可自定义)
5.map()方法(MapTask进程)对每一个<K,V>调用一次
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值