Hadoop学习心得---二

本文介绍了Hadoop的分布式计算模型MapReduce,通过实例解释Map和Reduce阶段的工作原理,强调了其自动并行化、故障恢复、灵活扩展和高性能的特点。此外,还提及了Hadoop生态中的其他组件如Impala、Hive、Hbase和Pig的角色。
摘要由CSDN通过智能技术生成

大数据运算解决方案MapReduce

Hadoop的分布式计算模型MapReduce,最早是Google提出的,主要用于搜索领域,解决海量数据的计算问题。MapReduce有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算

以统计某个文件中Deer、Car和 Bear三个单词的数量为例,如下图,来说明MapReduce是如何实现快速高效的分布式存储计算的。

计算过程如下: 1、文件准备;

2、文件切片:这里切分为三片(作业并行处理,效率加倍哦);

3、Map过程:接受一个键值对,产生一组键值对,比如(Deer,1),代表Deer为键,1为值,代表Deer单词的数量。

4、派发过程:Shuffle将键值对派发给Reduce;

5、Reduce过程:将相同键的值累加(计算靠近的数据);

6、输出计算结果。

MapReduce技术特征总结:

1、自动并行化:系统自动进行作业并行化处理;

2、自动可靠处理:系统自动处理节点/任务的故障检测和恢复;

3、灵活扩展:节点可以灵活加入和退出,系统自动感知节点状态并进行处理;

4、 高性能:计算任务将

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值