划重点:大数据MapReduce,你应该系统化的学习和了解

IT科技的内涵在不断的丰富,如今,如今伴随着大数据技能出现和不断升级,各个行业、领域对于大数据的关注度也开始不断的增强。在大数据技术当中MapReduce的重要性不言而喻,那么对于MapReduce的概念,执行流程等概念你了解多少呢?

首先,我们来简单的了解下什么是MapReduce

MapReduce 是由谷歌推出的一个编程模型,是一个能处理和生成超大数据集的算法模型,该架构能够在大量普通配置的计算机上实现并行化处理。MapReduce 编程模型结合用户实现的 Map 和 Reduce 函数。用户自定义的 Map 函数处理一个输入的基于 key/value pair 的集合,输出中间基于 key/value pair 的集合,MapReduce 库把中间所有具有相同 key 值的 value 值集合在一起后传递给 Reduce 函数,用户自定义的 Reduce 函数合并所有具有相同 key 值的 value 值,形成一个较小 value 值的集合。当然,对于MapReduce的解释,我们还可以将其拆分为两个单词来解释,map+reduce。

对于map,我们可以这样理解,(Mapping)对集合里的每个目标应用同一个操作。即,如果你想把表单里每个单元格乘以二,那么把这个函数单独地应用在每个单元格上的操作就属于mapping。

对于reduce我们则可以这样解释,化简(Reducing)遍历集合中的元素来返回一个综合的结果。即,输出表单里一列数字的和这个任务属于reducing。

其次,我们来了解MapReduce的执行过程

当你向MapReduce框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map任务,然后分配到不同的节点上去执行,每一个Map任务处理输入数据中的一部分,当Map任务完成后,它会生成一些中间文件,这些中间文件将会作为Reduce任务的输入数据。而Reduce任务的主要目标就是把前面若干个Map的输出汇总到一起并输出。这里我们也能够看出MapReduce的伟大之处就在于编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。

其实,MapReduce出现的最大意义还是将大数据的处理过程简化,让大数据处理分析的过程简单化。当然,由于市场变化的相信,未来的MapReduce功能也将会不断的丰富和提升。数据驱动一切的时代,让各个领域都看到了大数据的影响力。因此,重点关注大数据的含义和内涵将是时代发展对于每个人的要求。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值